#查找爬取动态加载的页面的数据#
#存储scrapy爬的数据##mySQL##MongoDB#
1.查找数据
1.1动态加载的页面的源代码中无界面数据,我们要去network>XHR中查找动态数据,XHR中找不到的话就去ALL中查找
1.2找到所需数据的headers,查看Ploads(参数),目的是查看翻页操作中哪些参数会变化,制作翻页目录
2.创建scrapy项目与爬虫文件
3.settings.py文件
设置USER-AGENT,LOG_LEVEL,ROBOTSTXT_OBEY(见scrapy爬虫实战笔记(一))
4.制作翻页目录
5.爬取并处理网页信息
6.存储数据(piplines组件)
使用piplines组件存储至数据库,我们需要把item提交至piplines组件
6.1 把数据存储至items(见scrapy爬虫实战笔记(一))
6.2在spider中yield item,可以将item提交至piplines
6.2.1打开管道类
我们首先要在settings中打开管道类,类名与piplines中对应类名一致
使用多个管道类(优先级不能相同,默认最低值为300)
6.2.2多个管道类处理
(1)前面一个管道类必须返回item,这样前一个存储方式存储完毕后,item才会传递到下一个管道类进行存储
(2)管道类中的函数名process_item不可以修改,修改后就不会执行存储操作了
(3)写入文件的必须是字符串,而这里的item是item对象
scrapy存储过程中若是报错,会继续向下存储,不影响后面的存储,这正是scrapy一个强大的地方。
6.2.3mySQL存储
这里记录一下代码,具体的步骤和mySQL存储没有什么区别(连接数据库,建表,存储数据等)
6.2.3MongoDB存储
这里可以直接转换类型后做一个存储