爬取文件怎么保存到mysql_将爬取的数据保存到mysql中

最新推荐文章于 2024-04-03 14:43:08 发布

Me·sserschmitt

最新推荐文章于 2024-04-03 14:43:08 发布

阅读量305

点赞数

文章标签：爬取文件怎么保存到mysql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_29149341/article/details/113720727

版权

本文详细记录了使用Scrapy爬虫将数据保存到MySQL的过程，包括安装pymysql、创建数据库和表、编写pipeline和settings，以及解决因数据同步问题导致的重复数据错误。最终通过在pipeline中加入互斥锁解决了问题，实现了稳定的数据保存。

摘要由CSDN通过智能技术生成

为了把数据保存到mysql费了很多周折，早上再来折腾，终于折腾好了

安装数据库

1、pip install pymysql(根据版本来装)

2、创建数据

打开终端键入mysql -u root -p 回车输入密码

create database scrapy (我新建的数据库名称为scrapy)

3、创建表

use scrapy;

create table xiaohua (name varchar(200) ,url varchar(100));

数据库部分就酱紫啦

4、编写pipeline

5、编写setting

6、编写spider文件

7、爬取数据保存到mysql

scrapy crawl xhwang

之前报错为2018-10-18 09:05:50 [scrapy.log] ERROR: (1241, 'Operand should contain 1 column(s)')

因为我的spider代码中是这样

附一张网上找到的答案

错误原因：item中的结果为{'name':[xxx,xxxx,xxxx,xxx,xxxxxxx,xxxxx],'url':[yyy,yyy,yy,y,yy,y,y,y,y,]},这种类型的数据

更正为6下面代码后出现如下会有重复

然后又查了下原因终于解决问题之所在

在图上可以看出，爬取的数据结果是没有错的，但是在保存数据的时候出错了，出现重复数据。那为什么会造成这种结果呢？

其原因是由于spider的速率比较快，scrapy操作数据库相对较慢，导致pipeline中的方法调用较慢，当一个变量正在处理的时候

一个新的变量过来，之前的变量值就会被覆盖了，解决方法是对变量进行保存，在保存的变量进行操作，通过互斥确保变量不被修改。

在pipeline中修改如下代码

完成以上设定再来爬取，OK 大功告成(截取部分)

Me·sserschmitt

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。