阿猜666-CSDN博客

原创爬虫 Filtered offsite request to XXX.com 错误.

原因：request的地址和allow_domain里面的冲突，从而被过滤掉。解决方法：可以停用过滤功能。yield Request(url, callback=self.parse_item, dont_filter=True)

2017-05-19 16:18:37 371

原创解决ImportError: No module named items

Scrapy项目中明明有items.py文件却提示“No module named items”？？？如果遇到这种情况，看看是不是你的spider.py文件和你的项目名同名了，是的话给spider改个名就好了。因为python会试图从你的spider文件中找items文件。就是这样。

2017-05-16 15:57:01 835

原创关于网站是否会封代理IP的验证

最近在学习爬虫，总是会遇到各种各样问题，感受到网站深深的恶意。最近又遇到一个瓶颈。由于使用自己的IP爬取数据IP会被封，所以采用代理IP来爬数据。理论上可行的方法实际操作起来却并不是总能成功爬到数据。由于使用的是免费代理IP，这种IP可以很容易在代理IP网站找到，所以一些网站可能也会对这些免费代理采取一系列的反爬措施。所以验证一下这些免费代理IP能不能进入你要爬取的网页。在西刺随便

2017-05-15 15:32:22 682

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 爬虫 Filtered offsite request to XXX.com 错误.

原创 解决ImportError: No module named items

原创 关于网站是否会封代理IP的验证

空空如也

空空如也

原创爬虫 Filtered offsite request to XXX.com 错误.

原创解决ImportError: No module named items

原创关于网站是否会封代理IP的验证