1.持久化存储
- 编码流程:
1.数据解析
2.封装item类
3.将解析的数据存储到实例化好的item对象
4.提交item
5.管道接收item然后对item进行io操作
6.开启管道
- 注意事项:
- 将同一份数据存储到不同的平台中:
- 管道文件中一个管道类负责将item存储到某一个平台中
- 配置文件中设定管道类的优先级
- process_item方法中return item的操作将item传递给下一个即将被执行的管道类
2.全站数据爬取
- 手动请求的发送:
- 设定一个通用的url模板
- 手动i请求的操作写在哪里:parse方法
- yield scrapy.Request(url,callback)
3.五大核心组件
4.post请求
- start_requests(self)
- post请求的手动发送:yield scrapy.FormRequest(url,callback,formdata)
- COOKIES_ENNABLE = False