爬虫分布式会自动对请求队列去重,那么如何对start_urls去重

背景描述

最新做的一个项目是要求爬取国外网站Twitter、Instagram、Youtube等等相关产品的评论,然后分析过滤出负面评论,依据最后的分析结果,可以做到提前发现问题、预防问题、解决或改善问题!

爬取思路

因为在一级页面里是拿不到我们想要的数据的,必须要进到二级页面,所以设计思路是,拿到一级页面的URL,再进行二级页面的数据抓取,两者可以同时进行。问题是,爬取一级页面的URL的时候,是采用Selenium模拟下拉网页的,获取的URL会有重复,如果直接把结果存到Redis数据库的话,会给数据库增加很多不必要的负担,但是如果直接用Redis集合进行存储,可以达到去重的目的,结果就是分布式工程无法从Redis集合拿到URL(分布式是从Redis队列拿数据)。
考虑到存储和效率问题,我的解决办法是使用了不同机器上的Redis(一个使用Redis集合,另一个用Redis队列),先存储到Redis集合,成功则返回1,已存在则返回0,返回值为1则存储到Redis队列。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

诗雅颂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值