积累(五-大数据处理)


微笑问:给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url。
答:单个文件的大小达到5G*64=320G,所以要拆成小的部分。
1.遍历文件a,对每一个url计算key=hash(url)%1000。相同key的url存放在一个文件里。这样我们得到了1000个文件(a0、a1、...、a999)。
2.对b采用同样的方法。得到(b0、b1、...、b999)。
3.在每对(ai,bi)中找共同的url。注意这样处理不会有遗漏。
下面再解决小文件中找共同url的方法。
可使用STL中的set<string> m_set,将第一个文件中每个url都放进去。再针对第二个文件的每个url作 m_set.find(url)!=m_set.end()的判断。

微笑问:N个降序有序队列,找到最大的K个数。(百度2015秋招真题)
答:解决方法堆排序:
1. 选取每个队列中第一个元素建立大根堆,堆中元素个数为队列的个数N;
2. 删除最大堆堆顶,保存到所求的集合中,然后向最大堆插入/刚才删除元素所在队列的/下一元素。

3. 重复第1,2个步骤,直到求得最大的K个数。


微笑问:如何求N个数中的前K个最大的数?

答:堆排序。
算法描述
1.首先取这N个数中的前K个数来建立一个小顶堆,这样堆顶元素便是当前已读取元素中的第K大者。
2.然后,依次读取剩下的数x与堆顶数字y比较,若x>y,则将堆顶元素替换为x,并自顶至向下调整堆。
3.至此,我们维护的堆即为答案。
扩展
1.当K>N/2时,可以原问题可转化为求前N-K个最小的数,然后求差集。
2.当数字为整数且范围有限时,可以考虑桶排序。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值