scrapy写爬虫注意事项

前段时间有个爬虫的需求,爬的什么网站的数据就不说了,简单介绍下在学习scrapy这中间踩的坑吧。

1、在爬取数据的时候,一定要想办法将爬虫伪装成一个浏览器,可以通过设置cookie和请求头的信息。这个具体的方法很多,随便百度一个关键词“scrapy设置请求头”,就可以出来一大堆答案。裸奔的话频率小点没啥事,但是访问频率比较高的话就会被302掉。甚至会被短时间内封掉ip,建议设置一个请求头比较保险。
2、使用scrapy时,要学会使用meta来传参。
3、要深入理解yield的用法。
4、item的使用尽量将需要的字段给他,不要给无关紧要的字段。
5、碰到异步请求的页面是,耐心找找异步请求的链接获取格式。一般来讲,请求的链接都是固定的,只是某一个相关的参数不同。拼接请求就可以了。
6、碰到js渲染的页面时,需要使用phantomjs来加载js渲染后页面,phantomjs更像一个隐藏的浏览器,能获取到最全面的页面信息,使用时需要自己写一个js加载文件。网上很多。最便捷的就是通过标准输出将页面返回给主逻辑。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值