爬虫
阿猜666
这个作者很懒,什么都没留下…
展开
-
关于网站是否会封代理IP的验证
最近在学习爬虫,总是会遇到各种各样问题,感受到网站深深的恶意。最近又遇到一个瓶颈。由于使用自己的IP爬取数据IP会被封,所以采用代理IP来爬数据。理论上可行的方法实际操作起来却并不是总能成功爬到数据。由于使用的是免费代理IP,这种IP可以很容易在代理IP网站找到,所以一些网站可能也会对这些免费代理采取一系列的反爬措施。所以验证一下这些免费代理IP能不能进入你要爬取的网页。在西刺随便原创 2017-05-15 15:32:22 · 682 阅读 · 0 评论 -
解决ImportError: No module named items
Scrapy项目中明明有items.py文件却提示“No module named items”???如果遇到这种情况,看看是不是你的spider.py文件和你的项目名同名了,是的话给spider改个名就好了。因为python会试图从你的spider文件中找items文件。就是这样。原创 2017-05-16 15:57:01 · 835 阅读 · 0 评论 -
爬虫 Filtered offsite request to XXX.com 错误.
原因:request的地址和allow_domain里面的冲突,从而被过滤掉。解决方法:可以停用过滤功能。yield Request(url, callback=self.parse_item, dont_filter=True)原创 2017-05-19 16:18:37 · 371 阅读 · 0 评论