两个50亿url文件找出共同的url的个人思考解法

最新推荐文章于 2022-10-17 21:57:19 发布

建安七子

最新推荐文章于 2022-10-17 21:57:19 发布

阅读量2.5k

点赞数 1

分类专栏：算法文章标签：算法内存复杂度大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cowcomic/article/details/83042662

版权

算法专栏收录该内容

2 篇文章 0 订阅

订阅专栏

最近听到了一个以前的算法题，题目大概是这样的

给A，B两个文件，各存放50亿条URL，每条URL占用64个字节，内存限制为4G，找出A，B中相同的URL。

一看题干，算都不用算，肯定一次性内存加载不起来，必须想其他办法

看了一下网上主要有这两种解决方案：

第一种方法是用布隆过滤器，利用布隆过滤器的特性来获得相同URL，其实我第一次看到这个题目的时候的第一个想法也是布隆过滤器，但这种方法有个问题，布隆过滤器是有效果误差的，会将一部分不同的也当时相同的识别进来，虽然通过设置长度控制函数个数能够降低这个误差，但依然有误差，一旦题目变成了找出不同的URL，就歇菜了，而且布隆过滤器也要求一次性申请全部长度的内存，如果内存限制更小，比如1G，512M，或者数据量更大，那布隆过滤器也无法满足

第二种方法是分而治之的思想，按照同一种哈希算法把两个50亿的文件都分割成若干小文件，每个小文件都让他能够4G内存加载起来，小文件之间对比，再把对比结果整合。这个方案弥补了布隆过滤器的问题，如果分布能够均匀的话，利用更小的内存都能够做这个事情，无非就是更多的文件么，但这带来了一个新的问题，选择什么样的哈希算法能够分布均匀，无论什么哈希算法都有分布不均匀的可能性，那么就又不稳定的可能性

这里简单描述一下我的解决方法

第一步，将每个文件等距拆分成若干小文件，这里不需要算法，目的只是获得各自的一堆小文件，距离不同都行。时间复杂度：O(n)

第二步，每个小文件内部排序（排序算法随意，排序方法和方向相同）。时间复杂度：随排序算法

第三步，将排序好的小文件还原回大文件，保证大文件排好序。时间复杂度：O(n*logn)

第四步，对比两个排好序的文件就简单啦，几乎不会耗费内存。时间复杂度：O(n)

这个过程基本可以适应任意大的数据和任意小的内存，同时是稳定的

当然缺点也是有的，就是第三步的还原通常需要同时打开这些文件，那么如果文件太多，比如超过65535个，那如果在linux下面即使改了ulimit也无法支持，这部分会增加一定的复杂度

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
4
评论
两个50亿url文件找出共同的url的个人思考解法

最近听到了一个以前的算法题，题目大概是这样的给A，B两个文件，各存放50亿条URL，每条URL占用64个字节，内存限制为4G，找出A，B中相同的URL。一看题干，算都不用算，肯定一次性内存加载不起来，必须想其他办法看了一下网上主要有这两种解决方案：第一种方法是用布隆过滤器，利用布隆过滤器的特性来获得相同URL，其实我第一次看到这个题目的时候的第一个想法也是布隆过滤器，但这种方法有个...
复制链接

扫一扫

专栏目录

建安七子 CSDN认证博客专家 CSDN认证企业博客

码龄15年

北京易华录信息技术股份有限公司

39: 原创

4万+: 周排名

2万+: 总排名

24万+: 访问

: 等级

1602: 积分

34: 粉丝

123: 获赞

84: 评论

366: 收藏

私信

关注

热门文章

分类专栏

招聘
笔记
js 2篇
java 6篇
nodejs 2篇
mysql 3篇
echarts
产品 2篇
小问题 3篇
python 3篇
算法 2篇
平台 1篇
杂谈 18篇
架构 2篇
mongo 1篇
elasticsearch 1篇

最新评论

一篇文章讲清楚VO，BO，PO，DO，DTO的区别
_z3422_: 建议的做法是前端传后端命名： XXRequest 后端返回前端命名： XXResponse 内部使用 XXDTO 实体使用 XXEntity 或者直接 XX
python安装pycrypto时报cl.exe错误返回状态2的解决方案
落暮星河: 问题依然未解决。
python安装pycrypto时报cl.exe错误返回状态2的解决方案
青青橙: 可以，对我有用。注意报错信息得是这个才有用： error: command 'C:\\Program Files (x86)\\Microsoft Visual Studio\\2017\\Community\\VC\\Tools\\MSVC\\14.16.27023\\bin\\HostX86\\x64\\cl.exe' failed with exit status 2
python安装pycrypto时报cl.exe错误返回状态2的解决方案
顾de拜: 可以参考下这个：https://blog.csdn.net/weixin_41010198/article/details/94053130?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522168017565516800217278055%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=168017565516800217278055&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_positive~default-1-94053130-null-null.142^v79^insert_down38,201^v4^add_ask,239^v2^insert_chatgpt&utm_term=cl%3A%20%E5%91%BD%E4%BB%A4%E8%A1%8C%20error%20D8021%20%3A%E6%97%A0%E6%95%88%E7%9A%84%E6%95%B0%E5%80%BC%E5%8F%82%E6%95%B0%E2%80%9C%2FWno-cpp%E2%80%9D&spm=1018.2226.3001.4187
python安装pycrypto时报cl.exe错误返回状态2的解决方案
顾de拜: 大家如果还是没有解决可以参考下这个： https://blog.csdn.net/weixin_41010198/article/details/94053130?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522168017565516800217278055%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=168017565516800217278055&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_positive~default-1-94053130-null-null.142^v79^insert_down38,201^v4^add_ask,239^v2^insert_chatgpt&utm_term=cl%3A%20%E5%91%BD%E4%BB%A4%E8%A1%8C%20error%20D8021%20%3A%E6%97%A0%E6%95%88%E7%9A%84%E6%95%B0%E5%80%BC%E5%8F%82%E6%95%B0%E2%80%9C%2FWno-cpp%E2%80%9D&spm=1018.2226.3001.4187

大家在看

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。