100万数据分割处理思想
要对100万的数据进行排序。这100万数据存储在文件中,每次只能处理10000的数据。怎么实现对100万数据的排序呢?
首先我们肯定要对数据进行切分。分割成100份,每份10000的数据量
分成这样的100份数据。
把这100万份数据分割成100份的时间的复杂度为忽略。
利用堆排序或者建立二叉平衡树的复杂度为nlog(n);所以对这100份数据排序的复杂度为:nlog(100/n);
然后我们取其中每份的100个数据量组成堆进行排序。以下面的为例子进行一下分析。
每次我们从头部比较,这时候第一列的1被选出。然后第一行的数据往前移动,第二次取出的是3,以此类推。
最后第一次处理完毕取出10000的数据。这10000数据会有标记属于哪一个堆,然后在该堆中删除该节点。
第一次处理完数据之后,在对应的100个堆中删除多少就向排序的的堆中补充多少
从堆中取出并排序的时间复杂度为nlog(n/100);
最后时间的复杂度为:nlog(n/100)(分割100万数据并排序所需要的复杂度)+nlog(n/100)(每次排序取入磁盘所需要
的复杂度)=2nlog(n/100)。
注意:由于复杂度是log((n/100)的平方)所以复杂度与分割的大小有关。是一个二次函数的关系。
找到一个合适的分割方式能更好的减少复杂度。