大数据排序算法总结学习

最新推荐文章于 2024-05-15 15:01:28 发布

chenkaifang

最新推荐文章于 2024-05-15 15:01:28 发布

阅读量633

点赞数 1

分类专栏：数据结构与算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chenkaifang/article/details/105913620

版权

数据结构与算法专栏收录该内容

11 篇文章 0 订阅

订阅专栏

原址：https://blog.csdn.net/zhushuai1221/article/details/51781002

1、对于很大的数据量，考虑多级索引和桶排序；

2、建立一个足够大的bit数组当作hash表，以bit数组的下标来表示一个整数，以bit位中的0或1来表示这个整数是否在这个数组中存在，适用于无重复原始数据的搜索，原来每个整数需要4byte空间变为1bit，空间压缩率为32倍，扩展后可实现其他类型（包括重复数据）的搜索

3、bigdata排序思路

a.把一个bigdata文件拆分成N个小文件，小文件容量小于当前机器的内存

b.对小文件进行排序处理

c.对小文件进行并归排序,一个个并归生成新的排序完成的文件，直到全部并归完成

4、位图，有容忍误差

bitmap算法的讲解：https://www.cnblogs.com/senlinyang/p/7885685.html

可以运用在快速查找、去重、排序、压缩数据等

延伸应用：布隆过滤器，https://blog.csdn.net/hguisu/article/details/7866173

5、内排和外排（map-reduce）

多路归并，小文件有序，依次从每个小文件开头取数据放入空白文件装填。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
大数据排序算法总结学习

原址：https://blog.csdn.net/zhushuai1221/article/details/517810021、对于很大的数据量，考虑多级索引和桶排序；2、建立一个足够大的bit数组当作hash表，以bit数组的下标来表示一个整数，以bit位中的0或1来表示这个整数是否在这个数组中存在，适用于无重复原始数据的搜索，原来每个整数需要4byte空间变为1bit，空间压缩率...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。