两个海量文件找重复项

最新推荐文章于 2022-04-24 09:23:13 发布

多多大人

最新推荐文章于 2022-04-24 09:23:13 发布

阅读量1.2k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangche320/article/details/43888583

版权

两个海量文件，每个文件都存储了100亿个URL，32位机器上计算两者重复的URL。

想到另外一个问题，如何在一个海量URL文件中，使用32位机器找出重复次数最多的那个URL。这个问题一般有几个思路，

1 遍历文件，对每个URL 哈希取模，结果存入多个小文件，再对每个小文件读入内存哈希计数得到次数最多的那一个，最后从不同文件中选出最大的那一个。

2因为内存受限，考虑到URL具有很强的规则性，比如http(ftp,https…)://www(…).xxxx.com(cn, net…)/…, 而且不应该太长，如果太长，比如都带上了执行脚本和各种参数(统计某个商品网页点击率)，这个时候一般都要做关键词预处理。可以做字母树结构，遍历文件，最后输出最大的。

3 hadoop。典型的单词计数问题。

回到本问题，

1 对其中一个文件做字母树，遍历另一个文件。

2 hadoop。不过要变化一下。先分别对两个文件做一个hadoop去重，即计数，不过只输出url。然后对两个新的url文件做hadoop计数，reduce的结果中count为2的即是重复项。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
两个海量文件找重复项

两个海量文件，每个文件都存储了100亿个URL，32位机器上计算两者重复的URL。想到另外一个问题，如何在一个海量URL文件中，使用32位机器找出重复次数最多的那个URL。这个问题一般有几个思路，1 遍历文件，对每个URL 哈希取模，结果存入多个小文件，再对每个小文件读入内存哈希计数得到次数最多的那一个，最后从不同文件中选出最大的那一个。2因为内存受限，考虑到URL具有很强的规则性，比如http(f
复制链接

扫一扫

多多大人

CSDN认证博客专家 CSDN认证企业博客

码龄11年

112: 原创

4万+: 周排名

153万+: 总排名

9万+: 访问

: 等级

1983: 积分

3: 粉丝

10: 获赞

4: 评论

13: 收藏

私信

关注

热门文章

分类专栏

搜索 2篇
股票

最新评论

10亿个QQ号码，找出重复次数最多的那一个
哈尼: hash怎么取模呢，比方某个号码出现的次数很多，都分配在一个文件里了，那么这个就不是小文件了；
几种几何图形是否相交的判断
毒行江湖: 第5个有点疑问，两个矩形可以有十字架的相交方式
输出满足2a=b的数对
渔歌向晚: 这个问题，O(nlogn)排序之后。快慢指针遍历一遍就可以了O(n)。
最长回文字符串
bitspx: Manacher算法只能计算出下标连续的回文子序列，例如characher返回最大字串长度为3(ara)，而不是5(carac). 算法导论15.2 最长回文子序列不要求子序列下标是连续的。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。