scrapy使用小结

最新推荐文章于 2023-05-27 13:52:23 发布

_风雨烟花

最新推荐文章于 2023-05-27 13:52:23 发布

阅读量278

点赞数 1

分类专栏：框架爬虫小白程序员文章标签： python 程序人生经验分享

本文链接：https://blog.csdn.net/qq_45101279/article/details/113730399

版权

13 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

使用scrapy框架爬虫是为比较大的爬虫项目，scrapy比自己用面向对象、多进程+协程更加方便代码量比较少但是得理解到scrapy 框架的作用多个模块配合使用
缺点：scrapy项目占用资源多项目庞大

在爬虫器里面写爬虫代码主要是处理 response数据
- 调度器调度下载器request 获得 response 交给spiders处理
- 返回时用yield 不用return
爬虫器处理后将数据返回给items
- item保存这些需要的数据准备给管道调用
items 里面写需要接收来自爬虫器的数据
- 以下面这种方式声明这也就是爬虫器需要返回的数据
- ```
author = scrapy.Field()
content = scrapy.Field()
```
管道器 pipelines将处理完成的数据存入数据库中
- process_item 将处理完成的数据保存例如将数据转成json存入文件中或者存入数据库中
settings 项目设置
1. 创建任务之后 settings里面有默认开启的语句也有语句需要我们手动开启
2. ROBOTSTXT_OBEY=Ture （默认开启）表示我们爬虫程序需要遵守 robots.txt规则只爬取网页允许的内容
  
  开发需要我们会设置为False ROBOTSTXT_OBEY=False
3. DOWNLOAD_DELAY = 3 下载器的下载间隔时长默认为不开启我们可以手动开启防止被反爬
4. DEFAULT_REQUEST_HEADERS 默认不开启这是我们访问页面带的浏览器 header 我们需要手动开启
5. ITEM_PIPELINES 管道器默认不开启需要使用时开启

关注