海量数据查找问题

一般解题思路: 
1、将数据导入到内存中 
2、将数据进行排序 (比如插入排序、快速排序) 
3、将排序好的数据存入文件
特殊:
1、导入数据库运算 
2、分段排序运算 
3、传说中bitmap,使用bit位运算 (最快,N/8),例如:比如读到一个数据为341245909这个数据,那就先在内存中找到341245909这个bit,并将bit值置为1遍历整个bit数组,将bit为1的数组下标存入文件

很多哥们在说到bitmap的时候表示不理解,小弟在这里就简单说一种可以使用的场景。
场景:有两个大文件,每个比如10G,文件里数据全部打乱了,但是两个文件中有大部分每行数据是对应相同的,只有少部分不相同。分配内存4G,怎么找出两个文件中所有不相同的行?
(1)第一步:对每个文件来说,先把每行的数据(string) 映射成整形(int, long, long long)看你喜欢,但是原则是:尽量保证string和整数之间是一一对应的关系。Eg:hash是个不错的选择。
(2)第二步:对每个文件来说,可以用 bitmap(10G/8)统计哪些数据有(1),哪些数据没有(0)。Eg:比如你现在有第4000条数据和第800条数据,bitmap就相当于是用一位来表示某个数据有或者没有,00000001,就说明有第一个数据,00000010就说明有第二个数据。然后第4000个数据的话,就用第500个字节的第八位就可以来表示;第800个数据的话,就用第100个字节得第八位来表示有没有。
(3)第三步:两个文件 起来看,两个文件集体再统计一次,重复(1+1=2),不重复(1+0=1或0+1=1),两个都没有(0+0=0)

转载于:https://www.cnblogs.com/zlcxbb/p/5757066.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值