散列分治_一个博客id_新浪博客



海量数据的排序问题:
1.如果数据不重复,可以使用位图
2.海量数据,内存有限


归并排序:
如 设有数列{6,202,100,301,38,8,1}
初始状态:6,202,100,301,38,8,1
第一次归并后:{6,202},{100,301},{8,38},{1},比较次数:3;
第二次归并后:{6,100,202,301},{1,8,38},比较次数:4;
第三次归并后:{1,6,8,38,100,202,301},比较次数:4;


TOP K问题:分而治之/散列映射   +   哈希统计    +    排序
对于最终要不要进行分治,是由内存要求决定的


一、从海量日志中提取出访问百度最多的那个IP。

1.分而治之:先将日志中所有的IP读取出来读到一个大文件中,对应装置IP数量巨大的文件,内存可能不能一下全部装载进去,所以先进行哈希到1000个小文件中:挨个读取并进行哈希,IP % 1000 = 对应文件序号
2.频率统计:通过第一步我们已经将大文件划分成1000个小文件,并且保证了相同的IP一定在同一个小文件中(通过相同的哈希函数);然后对1000个小文件进行hash_map(IP,count),进行频率统计,得到count最高的那个IP,一个1000个IP。
3.排序:通过堆排序对这1000个IP的count进行排序,得到频率最高的那个。也可以快速排序

二、从1000万条查询记录中找到最热门的10个查询串。

1.根据题意判断是否需要分治。
2.假设不需要进行分治:进行哈希统计,hash_map(string,count)   O(n)
3.用前十个string的count建立一个小根堆,然后开始遍历其余的查询串的count,通过与堆顶元素比较,如果比堆顶元素大,就将该节点放在堆中,否则与下个节点的count做比较。遍历完成后,就剩下热度最高的十条查询串。


三、有海量数据分布在100台电脑中,统计出这批数据出现次数最多的TOP 10.
考虑俩种情况:
①:同一个数字val只出现在一台电脑上,即俩个电脑上的数字不同,出现在A电脑上就不会在B电脑出现
②:同一个数字出现在不同电脑上,数字val在A电脑出现m次,在其他某台电脑出现n次,而A电脑上的某些数据出现次数分别为LKJHG等,实际m和n都LKJHG中的所有值,遗憾的是筛选时,会将val(m)和val(n)丢掉,可实际上val(m+n)才是我们想要的TOP

第一种情况:
1.把每台电脑的上的数据的TOP 10求出来,可以使用hash_map  +  堆排序
2.将每台电脑上的top 10写入一个大文件中,一共1000个数据,然后建立一个大小为10的小根堆,遍历剩下的990个数据,分别与堆顶元素作比较,最终留下最大的10个数据.

第二种情况:
1.可以将所以数据汇聚到一个大文件中,然后将各个数据进行 % 100 =电脑序号,存放在不同的电脑中
2.经过第一步,我们可以将所以相同的数据保证在同一台电脑上,然后在执行情况一的步骤即可。


四:有10个文件,每个文件的大小约为1GB,每个文件的每一行存放的是用户的查询串,每个文件的查询串都可能重复,按照查询串的频度排序。
三种解法:
解法一:
1.将10个文件顺序读取,将每个查询串通过散列函数,放在另外10个文件
2.然后将这10个小文件分别进行哈希统计在一台2G左右的电脑上,统计出每个查询串的出现的次数,查询串每出现一次查询串对应的count就+1
3.将排好序的查询串以及对应的count进行排序,排好序后将其输入到文件中,然后将这十个文件进行归并排序。

五:给定a和b俩个文件,分别存放50亿个url,然后现在需要找出ab中相同的url。
1.分治:a文件分治为1000个文件(a0,a1...a999),b文件同样分治为1000个小文件(b0,b1...b999)
2.这样一来,通过相同的哈希函数得到的小文件,中相同的url肯定在对应的相同编码的文件中,即a0和b0,a1和b1中才会有相同的url
3.使用hash_set,将其中一个小文件存放在hash_set中,然后遍历另外一个小文件的url,如果某个url存在与hash_set中,说明该url重复出现,那么就将该url保存在文件中。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值