海量数据找中位数

最新推荐文章于 2020-12-28 21:24:22 发布

带你去网吧里偷耳机

最新推荐文章于 2020-12-28 21:24:22 发布

阅读量1.4k

点赞数

分类专栏：海量数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40123329/article/details/88701403

版权

本文探讨了两种在内存有限的情况下找出10亿个整数中位数的方法。第一种方法通过按位分类将数据分散到文件中，逐步缩小查找范围。第二种方法利用映射区间统计每个区间的元素个数，然后通过累加找到中位数所在的区间，并再次遍历数据以确定中位数。两种方法都考虑了数据大小和内存限制，并提供了针对不同数据类型的改进方案。

摘要由CSDN通过智能技术生成

法一

原博客链接

思路如下：

从10亿个数据（int型占据4B）中找中位数，内存限制为1GB。

不可能一次性把数据全部加载到内存中，再使用快速排序算法，因为10亿*4B大约为4GB，内存不够。

可以一次性读入1GB的数据（分10次读取），然后对读入的1GB数据按照最高位即第32位的值进行分类并写入文件，如果最高位是1，写入file1,否则写入file2。那么file1全是负数，file2全是正数，如果file1中有4亿个数字，file2中有6亿个数字，那么中位数就是file2中排序之后从小到大的第1亿个数。

然后再把file2中的数据每次读入1GB进入内存，然后对读入的数据按照次高位即第31位的值进行分类写入文件，如果最高位是1，写入file3,否则写入file4，那么file3中的数据都比file4中的数据大，如果file3中有3亿个数字，file4中也有3亿个数字，那么中位数就是file4中从小到大排序后的第1亿个数字。

然后再把file4中的数据每次都读入1GB进入内存，然后对读入的数据按照次次高位即第30位的值进行分类写入文件。。。

如此下去，直至判断中位数为某一个文件中，且该文件中数据个数在2.5亿个（或者更少）时即可用快速排序找出它。

法二

原博客链接

<

最低0.47元/天解锁文章

带你去网吧里偷耳机

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。