分而治之_大数据

最新推荐文章于 2022-10-03 20:38:56 发布

韩利鹏

最新推荐文章于 2022-10-03 20:38:56 发布

阅读量1k

点赞数

分类专栏：算法思想文章标签：大数据分而治之

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/HANLIPENGHANLIPENG/article/details/53332630

版权

算法思想专栏收录该内容

1 篇文章 0 订阅

订阅专栏

问题：
1. 给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？
假如每个url大小为10bytes，那么可以估计每个文件的大小为50G×64=320G，远远大于内存限制的4G，所以不可能将其完全加载到内存中处理，可以采用分治的思想来解决。

Step1：遍历文件a，对每个url求取hash(url)%1000，然后根据所取得的值将url分别存储到1000个小文件（记为a0,a1,…,a999 ，每个小文件约300M）；

Step2: 遍历文件b，采取和a相同的方式将url分别存储到1000个小文件（记为b0,b1,…,b999）；
巧妙之处：这样处理后，所有可能相同的url都被保存在对应的小文件（a0 vs b0, a1 vs b1 ,…,a999 vs b999）中，不对应的小文件不可能有相同的url。然后我们只要求出这个1000对小文件中相同的url即可。

Step3：求每对小文件ai和bi中相同的url时，可以把ai的url存储到hash_set/hash_map中。然后遍历bi的每个url，看其是否在刚才构建的hash_set中，如果是，那么就是共同的url，存到文件里面就可以了。

问题不重要，思想是关键，有了思想才能够有方法！！！！！！

需要知道的基础知识
（1）1Gb = 109bytes（1Gb = 10亿字节）：1Gb = 1024Mb，1Mb = 1024Kb，1Kb = 1024bytes；

（2）基本流程是，分解大问题，解决小问题，从局部最优中选择全局最优；（当然，如果直接放内存里就能解决的话，那就直接想办法求解，不需要分解了。）

（3）分解过程常用方法：hash(x)%m。其中x为字符串/url/ip，m为小问题的数目，比如把一个大文件分解为1000份，m=1000；

（4）解决问题辅助数据结构：hash_map，Trie树，bit map，二叉排序树（AVL，SBT，红黑树）；

（5）top K问题：最大K个用最小堆，最小K个用最大堆。（至于为什么？自己在纸上写个小栗子，试一下就知道了。）

（6）处理大数据常用排序：快速排序/堆排序/归并排序/桶排序

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
3
评论
分而治之_大数据

问题： 1. 给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？假如每个url大小为10bytes，那么可以估计每个文件的大小为50G×64=320G，远远大于内存限制的4G，所以不可能将其完全加载到内存中处理，可以采用分治的思想来解决。Step1：遍历文件a，对每个url求取hash(url)%1000，然后根据所取得的值将ur
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。