一看就懂的大数据排序算法：如何给100万用户数据排序？

最新推荐文章于 2024-04-08 17:47:25 发布

web开发一号

最新推荐文章于 2024-04-08 17:47:25 发布

阅读量1k

点赞数 24

分类专栏： 2024年程序员学习文章标签：排序算法 java 算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_61549591/article/details/137108095

版权

其次，数据在各个桶之间的分布是比较均匀的。如果数据经过桶的划分之后，有些桶里的数据非常多，有些非常少，很不平均，那桶内数据排序的时间复杂度就不是常量级了。

桶排序比较适合用在外部排序中。所谓的外部排序就是数据存储在外部磁盘中，数据量比较大，内存有限，无法将数据全部加载到内存中。

比如说我们有 10GB 的数据，我们希望对这波数据进行排序，但是我们的内存有限，只有1G，没办法一次性把 10GB 的数据都加载到内存中。这个时候该怎么办呢？

我们可以先扫描一遍文件，看数据所处的数据范围。假设经过扫描之后我们得到，数据最小为1，最大为1000。我们将所有数据划分到 100 个桶里，第一个桶我们存储在 1 元到 10 元之内的数据，第二桶存储在 11 元到 20 元之内的数据，以此类推。每一个桶对应一个文件，并且按照数据范围的大小顺序编号命名（00，01，02…99）。

理想的情况下，如果数据均匀分布，那数据会被均匀划分到 100 个文件中，每个小文件中存储大约 100MB 的数据，我们就可以将这 100 个小文件依次放到内存中，用快排来排序。等所有文件都排好序之后，我们只需要按照文件编号，从小到大依次读取每个小文件中的数据，并将其写入到一个文件中。

不过呢，不均匀才是常态嘛，有可能某个区间的数据特别多，划分之后对应的文件就会很大，没法一次性读入内存。这又该怎么办呢？

针对这些划分之后还是比较大的文件，我们可以继续划分。

如果划分之后，数据还是太多，无法一次性读入内存，那就继续再划分，

最低0.47元/天解锁文章

web开发一号

关注

24
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
一看就懂的大数据排序算法：如何给100万用户数据排序？

很多程序员，整天沉浸在业务代码的 CRUD 中，业务中没有大量数据做并发，缺少实战经验，对并发仅仅停留在了解，做不到精通，所以总是与大厂擦肩而过。我把私藏的这套并发体系的笔记和思维脑图分享出来，理论知识与项目实战的结合，我觉得只要你肯花时间用心学完这些，一定可以快速掌握并发编程。识与项目实战的结合，我觉得只要你肯花时间用心学完这些，一定可以快速掌握并发编程。
复制链接

扫一扫

专栏目录

普通网友 CSDN认证博客专家 CSDN认证企业博客

码龄3年

624: 原创

-: 周排名

-: 总排名

41万+: 访问

: 等级

1万+: 积分

6311: 粉丝

9341: 获赞

10: 评论

9215: 收藏

私信

关注

热门文章

分类专栏

最新评论

SpringCloud 教程，实战分析
天蓝999: 可以的，我看的另一个SpringCloud项目视频，从零开发，五天学会了SpringCloud项目实战：https://knife.blog.csdn.net/article/details/134659054
Python中的pop()方法：删除和提取列表元素的利器_numpy 中的pop(1)
普通网友: 支持一下，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
如何结合Node和Puppeteer做网络爬虫(1)
普通网友: 写的很详细，感谢博主的分享。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
半天速成Python超简网站
普通网友: 博主的文章让我对这个主题有了全新的认识，细节描写非常到位，让我感受到了博主的深厚功底。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
如何结合Node和Puppeteer做网络爬虫(1)
普通网友: 文章构思巧妙，结构紧凑，既有深度又有广度，读后让人受益匪浅，确实是一篇值得一读的佳作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。