大数据排序算法总结学习

原址:https://blog.csdn.net/zhushuai1221/article/details/51781002

1、对于很大的数据量,考虑多级索引和桶排序;

 

2、建立一个足够大的bit数组当作hash表,以bit数组的下标来表示一个整数,以bit位中的0或1来表示这个整数是否在这个数组中存在,适用于无重复原始数据的搜索,原来每个整数需要4byte空间变为1bit,空间压缩率为32倍,扩展后可实现其他类型(包括重复数据)的搜索

 

3、bigdata排序思路

          a.把一个bigdata文件拆分成N个小文件,小文件容量小于当前机器的内存

          b.对小文件进行排序处理

          c.对小文件进行并归排序,一个个并归生成新的排序完成的文件,直到全部并归完成

 

4、位图,有容忍误差

bitmap算法的讲解:https://www.cnblogs.com/senlinyang/p/7885685.html

可以运用在快速查找、去重、排序、压缩数据等

延伸应用:布隆过滤器,https://blog.csdn.net/hguisu/article/details/7866173

 

5、内排和外排(map-reduce)

多路归并,小文件有序,依次从每个小文件开头取数据放入空白文件装填。

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值