Scrapy
城市里的元
经营博客,需用心。
展开
-
[已解决]ubuntu导入scrapy报错: No module named twisted.persisted.styles
场景: ubuntu安装scrapy后,在python2.7解释器上导入scrapy时报错: No module named twisted.persisted.styles解决: sudo pip install twisted --upgrade原创 2018-03-16 11:36:47 · 3257 阅读 · 1 评论 -
[爬虫项目]scrapy使用ImagePipeline下载图片And图片分类存储(解决路径问题)
项目介绍: 使用Scrapy下载千图网首页图片的高清样张,系统为Ubuntu 14.04 千图网反爬: 1、访问频率限制,延时需设置适当,频率上限后会要求输入4位验证码(3-6次),仍持续该频率将被封号4-6小时(测试数据) 2、经测试,当被检测为恶意访问后,网站未对IP进行封杀,只是封帐号 综上可知其反爬技术并不算...原创 2018-03-16 22:55:11 · 6070 阅读 · 1 评论 -
[爬虫技巧] Scrapy中定制写入CSV文件的Pipeline
前言: 在使用Scrapy写项目时,难免有时会需要将数据写入csv文件中,自带的FEED写法如下:settings.py (系统:Ubuntu 14)FEED_URI = 'file:///home/eli/Desktop/qtw.csv'FEED_FORMAT = 'CSV' 无需另写pipeline类,这种写法是最简单的。但鱼和...原创 2018-03-17 12:21:46 · 14792 阅读 · 3 评论 -
[Scrapy使用技巧] 如何在scrapy中捕获并处理各种异常
前言 使用scrapy进行大型爬取任务的时候(爬取耗时以天为单位),无论主机网速多好,爬完之后总会发现scrapy日志中“item_scraped_count”不等于预先的种子数量,总有一部分种子爬取失败,失败的类型可能有如下图两种(下图为scrapy爬取结束完成时的日志):scrapy中常见的异常包括但不限于:download error(蓝色区域), http code 40...原创 2018-06-15 16:29:50 · 35918 阅读 · 35 评论