爬虫
文章平均质量分 55
Top_zhangxu
求知若渴,虚心若愚。
展开
-
爬虫初探,获取一个页面
环境Win7+Python2.7urllib+urllib2[!] urllib模块和urllib2模块的区别 urllib2可以接受一个Request类的实例来设置URL请求的headers,urllib仅可以接受URL。 urllib提供urlencode方法用来GET查询字符串的产生,而urllib2没有。工作流程定位需要爬取的页面,糗事百科首页...原创 2017-06-25 09:27:51 · 1342 阅读 · 0 评论 -
Scrapy中扩展(Extension)的定义
先看一个例子class MyCustomStatsExtension(object): """ 这个extension专门用来定期搜集一次stats """ def __init__(self, stats): self.stats = stats self.time = 60.0 @classmethod def fro原创 2018-04-09 12:45:57 · 1941 阅读 · 0 评论 -
Python3下Scrapy环境的搭建
升级Python3之前使用Scrapy开发爬虫都是在Python2的环境下进行,最近有看到有些工具包宣称不再对Python2提供更新和维护, 可以看出Python3是发展的趋势。而早前Scrapy已经支持了Python3这让我意识到必须尽快将我的工作环境迁移到Python3, 毕竟习惯是很可怕的一件事。尝试环境: * Win7 * Python3.5.2依靠直觉我们会利用pip工具直接安装Scr原创 2018-04-09 12:48:42 · 1003 阅读 · 0 评论 -
Scrapy实现动态调试和同时启动多个爬虫
我的博客原文链接一般启动方式scrapy crawl spider_name命令行启动好处是灵活方便, 可以通过传递参数的形式控制爬虫的行为和输出。 参见官方文档比如你可以配置爬虫采集到数据的输出方式:scrapy crawl dmoz -o items.json但是它的缺点也很明显:原子性太强,不方便动态调试代码当需要启动多个爬虫时,不方便操...原创 2018-04-15 14:24:56 · 2241 阅读 · 0 评论