python3下scrapy爬虫(第十二卷:解决scrapy数据存储大量数据时阻塞问题）

最新推荐文章于 2024-07-30 18:42:54 发布

weixin_30799995

最新推荐文章于 2024-07-30 18:42:54 发布

阅读量383

点赞数

文章标签： python 爬虫数据库

原文链接：http://www.cnblogs.com/woshiruge/p/8430226.html

版权

之前我们使用scrapy爬取数据，用的存储方式是直接引入PYMYSQL，或者MYSQLDB，案例中数据量并不大，这种数据存储方式属于同步过程，也就是上一条语句执行完才能执行下一条语句，当数据量变大时，由于SCRAPY解析数据的速率远远大于数据存储入数据库的速度，以至于造成数据阻塞，可以理解为数据高并发的问题。

现在我们可以使用TWISTED里的功能，话不多说先在PIPELINE里引入类对象，来执行异步操作：

引入adbapi对象

第一步：在SETTINGS.py里设置数据库连接配置，做成数据异步容器，书写格式如下图

第二步：自定义PIPRLINE，将配置数据的异步容器引入过来，注意语法引入的方法，将配置数据写入字典中，并以动态参数的方式作为连接池的参数

第三步：创建连接对象：

第四步：使用TWISTED将数据插入变为异步执行

第五步：执行插入：

第六步：加入异步存储异常处理函数：

这种存储方式是极力推荐的一定是要会的因为真正的爬虫工作数据量都特别大

转载于:https://www.cnblogs.com/woshiruge/p/8430226.html

weixin_30799995

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。