100万数据分割处理思想

最新推荐文章于 2022-03-15 21:31:28 发布

不坠青云之志

最新推荐文章于 2022-03-15 21:31:28 发布

阅读量659

点赞数

分类专栏： Java 算法文章标签： divide

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43279637/article/details/84099912

版权

Java 同时被 2 个专栏收录

86 篇文章 2 订阅

订阅专栏

9 篇文章 0 订阅

订阅专栏

100万数据分割处理思想

要对100万的数据进行排序。这100万数据存储在文件中，每次只能处理10000的数据。怎么实现对100万数据的排序呢？

首先我们肯定要对数据进行切分。分割成100份，每份10000的数据量

分成这样的100份数据。

把这100万份数据分割成100份的时间的复杂度为忽略。

利用堆排序或者建立二叉平衡树的复杂度为nlog(n)；所以对这100份数据排序的复杂度为：nlog(100/n)；

然后我们取其中每份的100个数据量组成堆进行排序。以下面的为例子进行一下分析。

每次我们从头部比较，这时候第一列的1被选出。然后第一行的数据往前移动，第二次取出的是3，以此类推。

最后第一次处理完毕取出10000的数据。这10000数据会有标记属于哪一个堆，然后在该堆中删除该节点。

第一次处理完数据之后，在对应的100个堆中删除多少就向排序的的堆中补充多少

从堆中取出并排序的时间复杂度为nlog(n/100)；

最后时间的复杂度为：nlog(n/100)(分割100万数据并排序所需要的复杂度)+nlog(n/100)(每次排序取入磁盘所需要

的复杂度)=2nlog(n/100)。

注意：由于复杂度是log((n/100)的平方)所以复杂度与分割的大小有关。是一个二次函数的关系。

找到一个合适的分割方式能更好的减少复杂度。

不坠青云之志

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
100万数据分割处理思想

100万数据分割处理思想要对100万的数据进行排序。这100万数据存储在文件中，每次只能处理10000的数据。怎么实现对100万数据的排序呢？首先我们肯定要对数据进行切分。分割成100份，每份10000的数据量分成这样的100份数据。把这100万份数据分割成100份的时间的复杂度为忽略。利用堆排序或...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。