Scrapy爬虫框架结构 需要自己编写: Spdier:1⃣️发送请求2⃣️接收DOWNLOADER下载的内容Item Pipelines:接收爬取的数据 不需要编写: Engine:控制模块之间数据流Downloader:根据请求下载数据Scheduler:对爬取请求进行调度管理 两个中间件: 修改用户请求,响应和items Scrapy使用步骤 创建工程spider模版编写spider编写item pipeline优化配置 爬虫的数据类型: Requests Response Item类 从HTML中提取的信息,类字典类型