爬虫
文章平均质量分 54
Zzzzx_
这个作者很懒,什么都没留下…
展开
-
bs4+phantomjs爬取安居客二手房信息
bs4+phantomjs爬取安居客二手房信息这是我的第一篇博客,希望通过养成写博客的习惯来督促自己学习。开发环境以及需要安装的模块 - Python3.6 - requests pip install requests - BeautifulSoup4 pip install BeautifulSoup4 - selenium pip install selenium - pha原创 2017-11-07 12:57:14 · 1152 阅读 · 0 评论 -
重写scrapy中间件之RetryMiddleware
重写scrapy中间件RetryMiddleware在爬取得过程中难免会遇到各种错误,如timeout或者404。而且在用ip代理池时,不是所有的代理都是稳定的,所以对于失败的代理我们需要做一些处理,例如删除操作。而由于不稳定代理引起的请求我们需要重新发起。这时候就有必要重写RetryMiddleware,来实现一些自己想要的操作。理解RetryMiddleware源码重写RetryM原创 2017-11-14 22:29:36 · 12194 阅读 · 8 评论 -
驴妈妈景点爬取
驴妈妈景点爬取这次用BeautifulSoup4和requests来爬取驴妈妈上的景点信息。 主要用到的模块: - requests - BeautifulSoup - selenium爬虫思路1、获取城市名并构造所有城市地点的链接 get_all_cities_url() 3、爬取每个地点的第一页并获取最大页数 parse_one_page( (url, choice=0) ), 4、原创 2017-12-10 19:17:39 · 916 阅读 · 0 评论