不简单的URL去重

最新推荐文章于 2024-03-14 15:12:34 发布

VIP文章 historyasamirror

最新推荐文章于 2024-03-14 15:12:34 发布

阅读量2w

点赞数 8

分类专栏：搜索引擎文章标签： url filter byte 任务 database hashmap

本文链接：https://blog.csdn.net/historyasamirror/article/details/6746217

版权

发现我有好几篇blog的前缀都是用的“不简单”，它大概描述了这样一个状态：一个看起来很简单的任务在实践之后，发现其实很不容易。很多事情都是这样，如果不是亲自去做，如果不是仔细钻研，那就只能处于雾里看花的状态。
这让我想到另一个故事，在我毕业的那年曾经被某公司的CTO面试，他和我说过一句话让我至今记忆犹新，他跟我说技术其实是很简单的（几年后某位大牛也和我表达过类似的意思）。我一直琢磨这句话的含义，现在理解，他的意思应该是指无论多难的技术，只要你用心，总是能够学习和掌握的。

简单或者不简单，其实不是技术，而是我们做事的态度。

言归正传。
所谓的Url去重（我一直没找到对应的英文，URL Filtering ?），就是爬虫将重复抓取的URL去除，避免多次抓取同一网页。爬虫一般会将待抓取的URL放在一个队列中，从抓取后的网页中提取到新的URL，在他们被放入队列之前，首先要确定这些新的URL没有被抓取过，如果之前已经抓取过了，就不再放入队列。

最直观的做法 – hash表

为了尽快把整个爬虫搭建起来，最开始的URL去重采用方案是一个内存中的HashSet，这是最直观的方法，所有人都能想得到。HashSet中放置的就是URL的字符串，任何一个新的URL首先在HashSet中进行查找，如果HashSet中没有，就将新的URL插入HashSet，并将URL放入待抓取队列。
这个方案的好处是它的去重效果精确，不会漏过一个重复的URL。它的缺点是，我的爬虫第二天早上就挂了，Out Of Memory。因为随着抓取网页的增加，HashSet会一直无限制的增长。另外，网络中的很多URL其实是很长的，有大量的URL长度达到上百个字符。当然，因为我的爬虫是跑在一个小服务器上，JVM的内存本来就不多，否则它应该能再多撑1-2天。
简单估算一下，假设单个URL的平均长度是100 byte（我觉着这已经非常保守了），那么抓取1000万的URL就需要：
100 byte * 10 000 000 = 1 GB
而1000万URL在整个互联网中实在是沧海一粟。可以了解，需要多大的内存才能装下所有

最低0.47元/天解锁文章

historyasamirror

关注

8
点赞
踩
22

收藏

觉得还不错? 一键收藏
12
评论
不简单的URL去重

发现我有好几篇blog的前缀都是用的“不简单”，它大概描述了这样一个状态：一个看起来很简单的任务在实践之后，发现其实很不容易。很多事情都是这样，如果不是亲自去做，如果不是仔细钻研，那就只能处于雾里看花的状态。这让我想到另一个故事，在我毕业的那年曾经被某公司的CTO面试，他和我
复制链接

扫一扫