自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 爬取GitHub上的commit信息

经历了Googleplay之后 GitHub就会感觉简单很多由于github每一个commit信息都会跳转页面 ,为了获取commit的具体信息我的思路是首先翻页获取所有的commit信息的url 将其保存到本地在根据这些commit信息获取所有需要的具体信息 过程:从某应用commit界面出发,eg https://github.com/AChep/AcDisplay/...

2018-09-29 22:08:58 3005 2

原创 爬取Google Play中app的用户评论(2)

我遇到的下一个困难是如何爬取完整的用户评论如图,很多评论都是折叠起来的  要是想直接获取完整的用户评论,最后只能得到空值于是我尝试另外写一个方法来获取完整的评论  结果不尽人意然后我看书上的实例有用selector获取网页源代码的方法 先获取网页源代码  就可以直接获取完整的用户评论了selector = etree.HTML(driver.page_source)use...

2018-09-22 22:45:29 2668 5

原创 爬取Google Play中app的用户评论(1)

第一次写爬虫,真的踩了不少的坑坑1:看了爬虫视频后,首先尝试用request库和beautifulsoup来爬取Google Play然后总是报错连接超时 ,应该是谷歌的反爬虫机制导致的然后我的解决方法是用代理ip,于是成功解决了连接超时的问题(我用了是翻墙的软件,补充:千万别用全局代理模式,详见坑3)第一个坑就这么解决了,花了我几天的时间 坑2:解决了连接的问...

2018-09-22 22:21:43 5256 16

翻译 爬虫学习笔记4---------scrapy框架

Scrapy框架 Scrapy不是一个简单的函数功能库;而是一个专业的网络爬虫框架Scrapy 足以支持一般商业服务所需的爬虫能力:持续爬取、商业服务、高可靠性 scrapy库的安装:pip install scrapyscrapy -hAvailable commands:  bench         Run quick benchmark test...

2018-09-12 19:13:58 284

翻译 爬虫学习笔记3---------re库,正则表达式

Unit1 正则表达式 Re 正则表达式:regular expression     regex     RE简洁的表达一组字符串的表达式,(查找,替换,匹配)。表达“特征”(病毒,入侵) 使用:编译:将符合正则表达式的字符串'P(Y/YT/YTH)?N' 转换为正则表达式的特征。特征:p = re.compile('P(Y/YT/YTH)?N')语法:    ...

2018-09-12 19:12:40 255

翻译 爬虫学习笔记2---------BeautifulSoup库

Unit1:Beautiful Soup         一、安装https://www.crummy.com/software/BeautifulSoup/ 管理员权限打开命令行:pip install beautifulsoup4(注意:使用pip install beautifulsoup 会失败) 安装测试:演示地址(http://python123.io/...

2018-09-12 19:08:10 214

翻译 爬虫学习笔记1---------requests库

Unit 1 : Requests库入门 (7 * 13) (1)、安装 pip install requests      测试import requestsr = requests.get("http://www.baidu.com")r.status_code     200r.encoding = 'utf-8'r.text     #打印内容 ...

2018-09-12 19:06:54 223

原创 scrapy安装历程

准备安装的时候看到大家都说scrapy很难装  网上也有各式各样的教程但是感觉和我的情况都有些出入所以在这里总结一下我的情况 首先尝试了一下直接安装scapy  pip install scrapy然后出现报错:error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ ...

2018-09-11 16:43:14 111

转载 信息标记的三种形式

xml以标签的形式<a href=>baidu</a>    标签里面有内容时 用一对标签表示<img src= />                若标签里没有内容  则可以用 / 直接代替</><!-- -->                         注释json用键值对的形式“key":"va...

2018-09-10 20:24:34 211

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除