10亿条long型数据外部排序的文件分割实践及优化过程（JAVA）

最新推荐文章于 2024-07-26 01:45:52 发布

lxpxxx

最新推荐文章于 2024-07-26 01:45:52 发布

阅读量991

点赞数 1

文章标签：多线程磁盘IO JAVA 外部排序文件分割

本文链接：https://blog.csdn.net/qq_36882355/article/details/83017740

版权

本文介绍了如何处理10亿个long类型随机数的文件，涉及外部排序、多线程及文件分割。通过分析题目，提出使用多线程生成随机数，将大文件按需分割并进行外部排序。在程序设计中，重点讨论了读取、解析、排序和写入的优化，包括使用BufferedReader和RandomAccessFile，以及内存复用和多线程控制IO。经过优化，实现了通过BlockingQueue和多线程流水线提高效率，但仍然存在问题，如内存开销和IO调度。最后，讨论了进一步的优化方向，如内存映射和不同线程控制IO策略的性能比较。

摘要由CSDN通过智能技术生成

一、题目

生成10亿个long随机数正整数，把它写入一个文件里。然后实现一个函数 fetch(int k,int n)。（fetch函数的输出结果是这10亿个正整数中从小到大中第k个开始（不包含第k个）往后取n个数。）
给定内存为1G（可为2G）。

二、题目分析

   （1）首先生成10亿个long随机正整数，可考虑使用ThreadLocalRandom和多线程生成随机数。由于全部数据内存占用10几G，需要分批写入文件。（一个数据一行，行末为\n）
   （2）fetch函数的实现：
   1.先对随机数进行外部排序。由于随机数文件较大，无法一次性读取全部数据进行排序，所以必须对随机数文件进行分割成多个完成数据排序的小文件，然后通过多路归并实现外部排序。
   2.然后实现fetch函数，输出结果
   因此本文主要针对外部排序的文件分割部分进行说明，至于多路归并和fetch函数的实现本文暂不开展。

三、程序设计

本文主要针对大文件切割的程序设计进行分析。 （为了方便描述，后文将大文件切割分为read、parse、sort、write四个工序来描述）
设计思路：通过BufferedReader的readLine()方法读取每一行数据为String（read），通过parseLong()将String转换为long（parse），存放在一个long[]数组里。当装满long[]时通过Araay.sort()排序（sort），将排序好的long[]按行输出（write）。（long[]大小自行设定）通过多次循环操作实现大文件分割。为了加快效率，我用一个线程执行read、parse，另一个线程执行sort、write，两线程间用BlockingQueue交流数据。

由于内存开销很大，而且由于过大的内存开销，很容易就堆满了，且毫无效率可言，所以必须优化。优化思路是通过duox多线程进行read，一个线程处理parse、sort、write。如图：

read部分：使用readLine()10亿个数据要读10亿次，因此考虑采用RandomAccessFile和多线程结合进行读取，根据偏移量进行分次读取，每次读取32M（这个量是比较快而且不容易出现堆满的）。读取的字节数据存放在byte[]数据里，这时会出现一个新问题：每次读取的数据的末尾不一定是以“\n”结束，那么必定有个随机数被分割了！
由于采用多线程进行IO读操作，因此为了解决随机数被分割问题费了点心思。
主要思路：每完成一次read(b, 0, length)之后，往后继续read()一个byte，直到遇到第一个[10](即'\n')；同时还要判断每次read起始部分是否为完整的一个随机数，从byte[0]开始判断直到遇见第一个[10](即'\n')。注意临界条件：第一组数据和最后一组数据的处理。这样才能在parse的时候数据时完整的。由于代码不小心删了，这里就提供一个思路。

write部分：将long数据用BufferWriter按行写出为字符，这样的效率比较低，且占用内存较多。后来考虑到分割的文件是临时文件，fetch函数使用完之后就删除了。所以考虑使用DataOutputStream包装BufferOutputStream输出为一个个8字节的long，这样减少了一半以上的文件大小，且能提高输出效率。（ps:这算是一个不错的想法）
历经千辛万苦，跑了20几分钟才分割完数据，还是太慢了。
反思：方案一有许多不足之处。
采用多线程进行I/O操作并不一定会提高效率，有时反而会影响效率。因为一个磁盘一个时间段内只能进行一个I/O操作，如果通过多线程进行I/O操作，可能造成每次I/O是磁头寻道的偏移量较大，也就是寻道时间长，反而增加了I/O时间。
其次parse部分。将byte转换为String，每次新的一个String都会占用常量池。为了避免使用String，需直接将byte[]数据转换为long。于是乎想到了迭代计算，同时参考parseLong()的源码，进行优化。

优化：

如果想要提高效率，多线程的使用时必须的，那么如何使用多线程很关键。后经高人点播：既然大文件分割分为read、parse、sort、write四个部分，而且电脑是四核（二核四线程），那么一个部分用一个线程进行操作，形成一条流水线，流水线上的数据通过BlockingQueue来传递，这样可以提高CPU的利用率。（这个流水线模式是确定的，因此后文按照不同工序的优化过程来描述）

read部分： 这里将每次读取的数据通过BlockingQueue直接传递给parse线程(后续parse部分给出解决随机数分割的问题的方法)。为了减少写出文件的数量，我尽可能的将spiltSize设置大（实际上这个方式并没有充分利用流水线模式）。由于每次read时间较长，后置的线程会先处于阻塞状态。

由于缺乏对磁盘IO的理解，我局限的认为一次性读取的数据越大（取32M），减少I/O次数而提高效率，同时我又想保证每次写出的数据也越多越好，这样也可以减少后续归并的路数。因此将每次读取文件大小尽可能调大。
通过对磁盘IO的了解：影响磁盘的关键因数是磁盘服务时间，即磁盘完成一个I/O请求所花费的时间，它由寻道时间、旋转延迟和数据传输时间三部分构成。其中寻道时间、旋转延迟是占主要的，数据传输时间可以忽略。由于磁盘上每个扇区512byte，而操作系统的文件系统不是一个扇区一个扇区的来读数据，所以有了block（块）的概念，它是一个块一个块的读取的，块（block）是基本的数据传输单元（一般的操作系统block size为4k）。那么在磁盘上的同样存储位置，JAVA进行1024次4k的IO请求和进行1次4M的IO请求，在磁盘服务时间应该是差不多的（不知道这么理解对不对，如有不