爬虫学习笔记(九):Scrapy中settings&pipeline的常用设置

爬虫学习笔记(九)
Scrapy中settings&pipeline的常用设置

  1. settings
    • 我们应该注意的是setting中User-Agent,他一般都是默认的 ‘文件名+ (+http://www.yourdomain.com)’,在我们访问一些网站时明明代码没有问题可是就是没有结果,看看自己改ua了没。
    • 然后呢就是ROBOTSTXT_OBEY,这是看你是否遵循robots协议,因为有些东西是网站不想让你爬取的信息,所以该怎么样就自己想想吧。
    • DOWNLOAD_DELAY ,可以限制爬虫的访问频度,延时几秒,缺点是不能动态改变。
    • 当我们需要用到pipeline和middleware时,我们要在settings中把原本有的注释给删掉。
  2. pipeline
    • pipeline的主要作用:
      1. 清理html数据
      2. 验证爬取的数据
      3. 去重并丢弃
      4. 讲爬取的结果保存到数据库中或文件中
    • 两个经常用到的方法
      • open_spider(self,spider)
        表示当spider被开启的时候调用这个方法
      • close_spider(self,spider)
        当spider关闭时候这个方法被调用

注意:

写到pipeline后,要在settings中设置才可生效
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值