100万数据分割处理思想

9 篇文章 0 订阅

                                      100万数据分割处理思想

要对100万的数据进行排序。这100万数据存储在文件中,每次只能处理10000的数据。怎么实现对100万数据的排序呢?

首先我们肯定要对数据进行切分。分割成100份,每份10000的数据量

分成这样的100份数据。

把这100万份数据分割成100份的时间的复杂度为忽略。

利用堆排序或者建立二叉平衡树的复杂度为nlog(n);所以对这100份数据排序的复杂度为:nlog(100/n);

然后我们取其中每份的100个数据量组成堆进行排序。以下面的为例子进行一下分析。

每次我们从头部比较,这时候第一列的1被选出。然后第一行的数据往前移动,第二次取出的是3,以此类推。

最后第一次处理完毕取出10000的数据。这10000数据会有标记属于哪一个堆,然后在该堆中删除该节点。

第一次处理完数据之后,在对应的100个堆中删除多少就向排序的的堆中补充多少

从堆中取出并排序的时间复杂度为nlog(n/100);

最后时间的复杂度为:nlog(n/100)(分割100万数据并排序所需要的复杂度)+nlog(n/100)(每次排序取入磁盘所需要

的复杂度)=2nlog(n/100)。

注意:由于复杂度是log((n/100)的平方)所以复杂度与分割的大小有关。是一个二次函数的关系。

找到一个合适的分割方式能更好的减少复杂度。

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值