Scrapy数据库异步插入的坑

最新推荐文章于 2022-07-05 12:51:05 发布

little_people

最新推荐文章于 2022-07-05 12:51:05 发布

阅读量1.6k

点赞数 3

分类专栏：爬虫文章标签： scrapy

本文链接：https://blog.csdn.net/weixin_40539892/article/details/102695707

版权

爬虫专栏收录该内容

21 篇文章 0 订阅

订阅专栏

重要参考: 将爬虫数据插入SQL数据库是为什么出现重复？

重要参考: scrapy爬虫，数据入库后一直有重复数据，百思不得其解！！求指导

这是跟我遇到相同问题找到的两个参考，看了下他们的解释，大致原因如下：

因为数据库柄插入操作是次线程的，与主线程不同步，但是你传递给数据库柄的item 是引用传递，如果主线程中改变item的值了，那么次线程中的item也会改变，所以当数据库真正要插入第一条记录时，可能已经成了第三条记录了。前面两条记录就没有了。解决办法：将引用传递修改成值传递，或者生成多个item对象，每次yeild的item对象不是同一个。

用户：Mycro，这样解释：

数据爬出来的是对的，入库才会出现重复，问题出在：

query = self.dbpool.runInteraction(self._Cate_insert, Item)
_Cate_insert()

这句话上，这句话之前打印到文件就是对的，之后打印的就会出错，有重复有丢失，但数目刚好是一样的。

当_Cate_insert() 执行的时候，Item已经变了。

因此问题就出在这句话是异步的，Item ，这个对象，在出现了共享出现了问题。

这个解释的就很明确，和我做的测试一模一样

用户qq_33245827：

其原因是由于Spider的速率比较快，而scapy操作数据库操作比较慢，导致pipeline中的方法调用较慢，这样当一个变量正在处理的时候，一个新的变量过来，之前的变量的值就会被覆盖，比如pipline的速率是1TPS，而spider的速率是5TPS，那么数据库应该会有5条重复数据。

解决方案是对变量进行保存，在保存的变量进行操作，通过互斥确保变量不被修改

#pipeline默认调用
def process_item(self, item, spider):
    #深拷贝
    asynItem = copy.deepcopy(item)
    d = self.dbpool.runInteraction(self._do_upinsert, asynItem, spider)

这个就是更加通俗易懂，我也尝试过这个解决方法，但是最后发现这个deepcopy效率实在是太慢了，把异步的效果都牺牲掉了，有种得不偿失的感觉，还不如同步呢

简单来说其实就是引用传参的问题

所以将item定义到循环里面,scrapy自带多线程