scrapy爬虫实战笔记(二)

#查找爬取动态加载的页面的数据#

#存储scrapy爬的数据##mySQL##MongoDB#

1.查找数据

1.1动态加载的页面的源代码中无界面数据,我们要去network>XHR中查找动态数据,XHR中找不到的话就去ALL中查找

1.2找到所需数据的headers,查看Ploads(参数),目的是查看翻页操作中哪些参数会变化,制作翻页目录

2.创建scrapy项目与爬虫文件

3.settings.py文件

设置USER-AGENT,LOG_LEVEL,ROBOTSTXT_OBEY(见scrapy爬虫实战笔记(一))

4.制作翻页目录

5.爬取并处理网页信息

6.存储数据(piplines组件)

使用piplines组件存储至数据库,我们需要把item提交至piplines组件

6.1 把数据存储至items(见scrapy爬虫实战笔记(一))

6.2在spider中yield item,可以将item提交至piplines

6.2.1打开管道类

我们首先要在settings中打开管道类,类名与piplines中对应类名一致

使用多个管道类(优先级不能相同,默认最低值为300)

6.2.2多个管道类处理

(1)前面一个管道类必须返回item,这样前一个存储方式存储完毕后,item才会传递到下一个管道类进行存储

(2)管道类中的函数名process_item不可以修改,修改后就不会执行存储操作了

(3)写入文件的必须是字符串,而这里的item是item对象

scrapy存储过程中若是报错,会继续向下存储,不影响后面的存储,这正是scrapy一个强大的地方。

6.2.3mySQL存储

这里记录一下代码,具体的步骤和mySQL存储没有什么区别(连接数据库,建表,存储数据等)

6.2.3MongoDB存储

这里可以直接转换类型后做一个存储

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值