爬虫学习笔记(九)
Scrapy中settings&pipeline的常用设置
- settings
- 我们应该注意的是setting中
User-Agent
,他一般都是默认的 ‘文件名+ (+http://www.yourdomain.com)’,在我们访问一些网站时明明代码没有问题可是就是没有结果,看看自己改ua了没。 - 然后呢就是
ROBOTSTXT_OBEY
,这是看你是否遵循robots协议,因为有些东西是网站不想让你爬取的信息,所以该怎么样就自己想想吧。 DOWNLOAD_DELAY
,可以限制爬虫的访问频度,延时几秒,缺点是不能动态改变。- 当我们需要用到pipeline和middleware时,我们要在settings中把原本有的注释给删掉。
- 我们应该注意的是setting中
- pipeline
- pipeline的主要作用:
- 清理html数据
- 验证爬取的数据
- 去重并丢弃
- 讲爬取的结果保存到数据库中或文件中
- 两个经常用到的方法
- open_spider(self,spider)
表示当spider被开启的时候调用这个方法 - close_spider(self,spider)
当spider关闭时候这个方法被调用
- open_spider(self,spider)
- pipeline的主要作用:
注意:
写到pipeline后,要在settings中设置才可生效