程序员面试金典-----给定100亿个网址，找出重复的URL

天--空

于 2018-08-18 15:39:48 发布

阅读量3.4k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/g1607058603/article/details/81808749

版权

1、题目描述

给定100亿个网址，如何检测出重复的文件？这里所谓的“重复”是指两个URL完全相同。

2、思路

100亿个网址（URL）要占用多少空间呢？如果每个网址平均长度为100个字符，每个字符要占用4字节，则这份100亿个网址的列表将占用约4兆兆字节（4TB）。在内存中可能放不下那么多数据。

不过，不防假装一下，这些数据真的奇迹般的放进了内存，毕竟先求解简化的题目是很有用的做法。对于此题的简化版，只要创建一个散列表（HashMap），第一次扫描所有网址，将URL作为key，将URL出现的次数作为value，统计所有URL出现的次数。第二次扫描所有URL,出现次数大于1的URL，则为重复的URL。（另一种做法是对列表进行排序，找出重复项，这需要额外耗费一些时间，几无优点可言）。

至此，我们得到此题简化版的解法，那么，假设我们手上有4000GB的数据，而且无法全部放入内存，该怎么办？倒也好办，我们可以将部分数据存储至磁盘，或者将数据分拆到多台机器上。

解法1：存储至磁盘

若将所有数据存储在一台机器上，可以对数据进行两次扫描。第一次扫描是将网址列表拆分为4000组，每组1GB。简单的做法是将每个网址u存放在名为<x>.txt的文件中，其中x=hash(u)%4000。也就是说，我们会根据网址的散列值（除以分组数量取余数）分割这些网址。这样一来，所有散列值相同的网址都会位于同一文件。

第二次扫描时，我们其实是在实现前面简化版问题的解法：将每个文件载入内存，创建网址的散列表（HashMap），找出重复的。

解法2：多台机器

另一种解法的基本流程是一样的，只不过要使用多台机器。在这种解法中，我们会将网址发送到机器x上，而不是储存至文件<x>.txt。

使用多台机器有优点也有缺点。

主要优点是可以并行执行这些操作，同时处理4000个分组。对于海量数据，这么做就能迅速有效的解决问题。

缺点是现在必须依靠4000台不同的机器，同时要做到操作无误。这可能不太现实（特别是对于数据量更大、机器更多的情况），我们需要开始考虑如何处理机器故障。此外，涉及这么多机器，无疑大幅度增加了系统的复杂性。

注：如果利用Hadoop，可以在mapper中，以x作为key，相应的url作为value发送到reducer，相同key的url会来到同一个reducer，利用前面简化版问题的解法，找出重复网址。

博客等级

码龄12年

203
原创

69
点赞

214
收藏

32
粉丝

关注

私信

热门文章

分类专栏

最新评论

java三大特性
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接；(3)增加条理清晰的目录。
Spring框架-----注解
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)使用更多的站内链接；(3)提升标题与正文的相关性。
堆排序（升序）
qq_29617865: 经过一轮调整后那一步能细说一下吗
JVM-----类加载（类只需要加载一次就可以，不需要反复加载）
Xianggc007: JAVA_HOME/jr/lib/ext/*.jar吧？
JDK动态代理和cglib动态代理（AOP的底层实现原理）
程序员li: 大哥你这是说怎么用哈，也不是原理哈

大家在看

7 种 WinForms 窗体跳转方法，总有一款适合你 425

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。