海量数据的处理笔记

参考csdn博主July的有关文章。

可以去他主页看有关内容:

http://blog.csdn.net/v_JULY_v/article/details/6279498

http://blog.csdn.net/v_july_v/article/details/7382693

bitmap

http://blog.csdn.net/v_july_v/article/details/6685962

bloom filter

http://blog.csdn.net/v_july_v/article/details/6685894


首先,由于数据量很大,无法在内存中直接存储,传统的排序等预处理操作也无效。所以主要思想是分而治之。使用hash,将一个大文件,转换为多个小文件,对小文件进行处理,再汇总结果。

其中有些好用的技术,如bit map,bloom filter等。bit map,使用一个位的0,1来表示这个数字有没出现过。bloom filter,引入了误差率,使用m位数组,k个hash函数还做数据的对应。

还有map reduce,也是很火的技术。

当然,要进行估算,要明白一些基本的估算值:

1 G = 1024M = 2^30 Byte

1 M = 1024KB = 2^20 Byte

1 KB = 1026Byte = 2^10 Byte

1 Byte = 8 bit

一个int是32位的话,值范围是-2147483684--2147483647,也就是2^31 = 2147483648.

2^10 = 1,024

2^20 = 1,048,576 (一百万, million) (7位,6个零,一百万 M)

2^30 = 1,073,741,824 (十亿,billion) (10位,9个零,十亿 G)

2^40 = 1,099,511,627,776 (一万亿,trillion)(13位,12个零)


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值