2018年09月_staryxx

原创爬取GitHub上的commit信息

经历了Googleplay之后 GitHub就会感觉简单很多由于github每一个commit信息都会跳转页面，为了获取commit的具体信息我的思路是首先翻页获取所有的commit信息的url 将其保存到本地在根据这些commit信息获取所有需要的具体信息过程：从某应用commit界面出发，eg https://github.com/AChep/AcDisplay/...

2018-09-29 22:08:58 3005 2

原创爬取Google Play中app的用户评论（2）

我遇到的下一个困难是如何爬取完整的用户评论如图，很多评论都是折叠起来的要是想直接获取完整的用户评论，最后只能得到空值于是我尝试另外写一个方法来获取完整的评论结果不尽人意然后我看书上的实例有用selector获取网页源代码的方法先获取网页源代码就可以直接获取完整的用户评论了selector = etree.HTML(driver.page_source)use...

2018-09-22 22:45:29 2668 5

原创爬取Google Play中app的用户评论（1）

第一次写爬虫，真的踩了不少的坑坑1：看了爬虫视频后，首先尝试用request库和beautifulsoup来爬取Google Play然后总是报错连接超时，应该是谷歌的反爬虫机制导致的然后我的解决方法是用代理ip，于是成功解决了连接超时的问题（我用了是翻墙的软件，补充：千万别用全局代理模式，详见坑3）第一个坑就这么解决了，花了我几天的时间坑2：解决了连接的问...

2018-09-22 22:21:43 5256 16

翻译爬虫学习笔记4---------scrapy框架

Scrapy框架 Scrapy不是一个简单的函数功能库；而是一个专业的网络爬虫框架Scrapy 足以支持一般商业服务所需的爬虫能力：持续爬取、商业服务、高可靠性 scrapy库的安装:pip install scrapyscrapy -hAvailable commands: bench Run quick benchmark test...

2018-09-12 19:13:58 284

翻译爬虫学习笔记3---------re库，正则表达式

Unit1 正则表达式 Re 正则表达式：regular expression regex RE简洁的表达一组字符串的表达式，（查找，替换，匹配）。表达“特征”（病毒，入侵）使用：编译：将符合正则表达式的字符串'P(Y/YT/YTH)?N' 转换为正则表达式的特征。特征：p = re.compile('P(Y/YT/YTH)?N')语法： ...

2018-09-12 19:12:40 255

翻译爬虫学习笔记2---------BeautifulSoup库

Unit1:Beautiful Soup 一、安装https://www.crummy.com/software/BeautifulSoup/ 管理员权限打开命令行：pip install beautifulsoup4（注意：使用pip install beautifulsoup 会失败）安装测试：演示地址(http://python123.io/...

2018-09-12 19:08:10 214

翻译爬虫学习笔记1---------requests库

Unit 1 : Requests库入门（7 * 13）（1）、安装 pip install requests 测试import requestsr = requests.get("http://www.baidu.com")r.status_code 200r.encoding = 'utf-8'r.text #打印内容 ...

2018-09-12 19:06:54 223

原创 scrapy安装历程

准备安装的时候看到大家都说scrapy很难装网上也有各式各样的教程但是感觉和我的情况都有些出入所以在这里总结一下我的情况首先尝试了一下直接安装scapy pip install scrapy然后出现报错：error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ ...

2018-09-11 16:43:14 111

转载信息标记的三种形式

xml以标签的形式<a href=>baidu</a> 标签里面有内容时用一对标签表示<img src= /> 若标签里没有内容则可以用 / 直接代替</> 注释json用键值对的形式“key"："va...

2018-09-10 20:24:34 211

staryxx的博客