scrapy使用小结
使用scrapy框架爬虫是为 比较大的爬虫项目,scrapy比自己用面向对象、多进程+协程更加方便 代码量比较少 但是得理解到scrapy 框架的作用 多个模块配合使用
缺点:scrapy项目占用资源多 项目庞大
-
在爬虫器里面写爬虫代码 主要是处理 response数据
- 调度器 调度下载器request 获得 response 交给spiders处理
- 返回时用yield 不用return
-
爬虫器处理后 将数据返回给items
- item保存这些需要的 数据 准备给管道调用
-
items 里面写需要接收来自爬虫器的数据
-
以下面这种方式声明 这也就是爬虫器需要返回的数据
-
author = scrapy.Field() content = scrapy.Field()
-
-
管道器 pipelines将处理完成的数据 存入数据库中
- process_item 将处理完成的数据保存 例如将数据转成json存入文件中 或者存入数据库中
-
settings 项目设置
-
创建任务之后 settings里面有默认开启的语句 也有语句需要我们手动开启
-
ROBOTSTXT_OBEY=Ture (默认开启) 表示我们爬虫程序需要遵守 robots.txt规则 只爬取网页允许的内容
开发需要 我们会设置为False ROBOTSTXT_OBEY=False
-
DOWNLOAD_DELAY = 3 下载器的下载间隔时长 默认为不开启 我们可以手动开启防止被反爬
-
DEFAULT_REQUEST_HEADERS 默认不开启 这是我们访问页面带的浏览器 header 我们需要手动开启
-
ITEM_PIPELINES 管道器 默认不开启 需要使用时开启
-