原址:https://blog.csdn.net/zhushuai1221/article/details/51781002
1、对于很大的数据量,考虑多级索引和桶排序;
2、建立一个足够大的bit数组当作hash表,以bit数组的下标来表示一个整数,以bit位中的0或1来表示这个整数是否在这个数组中存在,适用于无重复原始数据的搜索,原来每个整数需要4byte空间变为1bit,空间压缩率为32倍,扩展后可实现其他类型(包括重复数据)的搜索
3、bigdata排序思路
a.把一个bigdata文件拆分成N个小文件,小文件容量小于当前机器的内存
b.对小文件进行排序处理
c.对小文件进行并归排序,一个个并归生成新的排序完成的文件,直到全部并归完成
4、位图,有容忍误差
bitmap算法的讲解:https://www.cnblogs.com/senlinyang/p/7885685.html
可以运用在快速查找、去重、排序、压缩数据等
延伸应用:布隆过滤器,https://blog.csdn.net/hguisu/article/details/7866173
5、内排和外排(map-reduce)
多路归并,小文件有序,依次从每个小文件开头取数据放入空白文件装填。