爬虫分布式会自动对请求队列去重，那么如何对start_urls去重

最新推荐文章于 2020-09-16 11:29:22 发布

诗雅颂

最新推荐文章于 2020-09-16 11:29:22 发布

阅读量2.6k

点赞数

分类专栏：爬虫文章标签： Python 分布式去重

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/andrew_wf/article/details/85111506

版权

爬虫专栏收录该内容

9 篇文章 1 订阅

订阅专栏

背景描述

最新做的一个项目是要求爬取国外网站Twitter、Instagram、Youtube等等相关产品的评论，然后分析过滤出负面评论，依据最后的分析结果，可以做到提前发现问题、预防问题、解决或改善问题！

爬取思路

因为在一级页面里是拿不到我们想要的数据的，必须要进到二级页面，所以设计思路是，拿到一级页面的URL，再进行二级页面的数据抓取，两者可以同时进行。问题是，爬取一级页面的URL的时候，是采用Selenium模拟下拉网页的，获取的URL会有重复，如果直接把结果存到Redis数据库的话，会给数据库增加很多不必要的负担，但是如果直接用Redis集合进行存储，可以达到去重的目的，结果就是分布式工程无法从Redis集合拿到URL（分布式是从Redis队列拿数据）。
考虑到存储和效率问题，我的解决办法是使用了不同机器上的Redis（一个使用Redis集合，另一个用Redis队列），先存储到Redis集合，成功则返回1，已存在则返回0，返回值为1则存储到Redis队列。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
爬虫分布式会自动对请求队列去重，那么如何对start_urls去重

背景描述最新做的一个项目是要求爬取国外网站Twitter、Instagram、Youtube等等相关产品的评论，然后分析过滤出负面评论，依据最后的分析结果，可以做到提前发现问题、预防问题、解决或改善问题！爬取思路因为在一级页面里是拿不到我们想要的数据的，必须要进到二级页面，所以设计思路是，拿到一级页面的URL，再进行二级页面的数据抓取，两者可以同时进行。问题是，爬取一级页面的URL的时候，是...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

诗雅颂 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。