scrapy

最新推荐文章于 2023-10-21 16:03:19 发布

Thanks.

最新推荐文章于 2023-10-21 16:03:19 发布

阅读量148

点赞数

文章标签： scrapy python 开发语言

本文链接：https://blog.csdn.net/weixin_42561051/article/details/126153765

版权

1、创建scrapy项目:
终端输入 scrapy startproject 项目名称
2.项目组成
spiders(存储的是爬虫文件）
init.py
自定义的爬虫文件.py 有自己创建，是实现爬虫核心功能的文件
items 定义数据结构的地方爬取的数据都包含哪些
middleware 中间件代理
pipelines 管道用来处理下载的数据
settings 配置文件 robots协议 ua定义等

（管道可以有很多个，管道是有优先级的，优先级的范围是1到1000。值越小优先级越高）

创建爬虫文件：scrapy genspider 爬虫文件的名字要爬取的网页
运行爬虫代码：scrapy crawl 爬虫的名字（scrapy crawl baidu）

4.response的属性和方法（后三个常用）
response.text 获取的是响应的字符串
response.body 获取的是二进制数据
response.xpath 可以直接使用xpath方式来解析response中的内容
response.extract(）提取seletor对象的data属性值
response.extract()_first() 提取的seletor列表的第一个数据

4.windows终端中输入scrapy shell 可以实现不打开scrapy框架修改脚本

5.懒加载
yield迭代器相当于每次return返回一个值