自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 爬虫 Filtered offsite request to XXX.com 错误.

原因:request的地址和allow_domain里面的冲突,从而被过滤掉。解决方法:可以停用过滤功能。yield Request(url, callback=self.parse_item, dont_filter=True)

2017-05-19 16:18:37 371

原创 解决ImportError: No module named items

Scrapy项目中明明有items.py文件却提示“No module named items”???如果遇到这种情况,看看是不是你的spider.py文件和你的项目名同名了,是的话给spider改个名就好了。因为python会试图从你的spider文件中找items文件。就是这样。

2017-05-16 15:57:01 835

原创 关于网站是否会封代理IP的验证

最近在学习爬虫,总是会遇到各种各样问题,感受到网站深深的恶意。最近又遇到一个瓶颈。由于使用自己的IP爬取数据IP会被封,所以采用代理IP来爬数据。理论上可行的方法实际操作起来却并不是总能成功爬到数据。由于使用的是免费代理IP,这种IP可以很容易在代理IP网站找到,所以一些网站可能也会对这些免费代理采取一系列的反爬措施。所以验证一下这些免费代理IP能不能进入你要爬取的网页。在西刺随便

2017-05-15 15:32:22 682

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除