charles爬取数据储存mysql_Scrapy利用Redis实现消重存入MySQL(增量爬取)

官方去重:

scrapy官方文档的去重模块,只能实现对当前抓取数据的去重,并不会和数据库里的数据做对比。也就是说如果你抓了100条数据,里面有10条重复了,它会丢掉这10条,但100条里有20条和数据库的数据重复了,它也不管,照样存进去。

Python

class DuplicatesPipeline(object):

def __init__(self):

self.url_seen = set()

def process_item(self, item, spider):

if item['art_url'] in self.url_seen: #这里替换成你的item['#']

raise DropItem("Duplicate item found: %s" % item)

else:

self.url_seen.add(item['art_url']) #这里替换成你的item['#']

return item

1

2

3

4

5

6

7

8

9

10

11

12

classDuplicatesPipeline(object):

def__init__(self):

self.url_seen=set()

defprocess_item(self,item,spider):

ifitem['art_url']inself.url_seen:#这里替换成你的item['

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值