爬虫学习笔记（九）：Scrapy中settings&pipeline的常用设置

最新推荐文章于 2023-11-14 12:54:08 发布

冲击。

最新推荐文章于 2023-11-14 12:54:08 发布

阅读量548

点赞数 1

分类专栏：笔记

本文链接：https://blog.csdn.net/qq_44766315/article/details/107823568

版权

13 篇文章 0 订阅

订阅专栏

爬虫学习笔记（九）
Scrapy中settings&pipeline的常用设置

settings
- 我们应该注意的是setting中User-Agent，他一般都是默认的 ‘文件名+ (+http://www.yourdomain.com)’，在我们访问一些网站时明明代码没有问题可是就是没有结果，看看自己改ua了没。
- 然后呢就是ROBOTSTXT_OBEY，这是看你是否遵循robots协议，因为有些东西是网站不想让你爬取的信息，所以该怎么样就自己想想吧。
- DOWNLOAD_DELAY ，可以限制爬虫的访问频度，延时几秒，缺点是不能动态改变。
- 当我们需要用到pipeline和middleware时，我们要在settings中把原本有的注释给删掉。
pipeline
- pipeline的主要作用：
  1. 清理html数据
  2. 验证爬取的数据
  3. 去重并丢弃
  4. 讲爬取的结果保存到数据库中或文件中
- 两个经常用到的方法
  - open_spider(self,spider)
    表示当spider被开启的时候调用这个方法
  - close_spider(self,spider)
    当spider关闭时候这个方法被调用

注意：

写到pipeline后，要在settings中设置才可生效

关注