MPI系列: 并行IO性能优化究竟是怎么玩的呢？

最新推荐文章于 2025-04-12 21:16:12 发布

架构师技术联盟

最新推荐文章于 2025-04-12 21:16:12 发布

阅读量6k

点赞数 8

本文深入探讨MPI-IO在并行计算中的优化技术，包括数据筛选和两阶段IO，阐述了这些技术如何解决并行读写过程中的性能瓶颈，以及与并行存储系统的配合方式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

640?wx_fmt=jpeg

640?wx_fmt=gif&wxfrom=5&wx_lazy=1

浓缩干货：MPI-IO对单个进程使用“数据筛选”技术优化，对聚合IO使用“两阶段IO”技术优化。并行存储系统的文件条块长度与严重影响性能。

1997年，MPI 2.0标准添加了并行IO功能，接口函数增加了一堆。但是MPICH、OpenMPI软件包的文档、MPI教科书里只讲各种函数的用法，不提这些并行IO函数是如何提高性能的，让人一边写代码一边怀疑它们的实际效果。想知道背后的优化原理，就要先了解一它的应用场景。

MPI程序读写文件的模式

只用1个进程读写：如图1，进程p0将文件中的所有数据读入自己的缓冲区(buffer)，然后用MPI发送接收函数将大部分数据传给进程p1~p3。计算结束后，如图2，进程p1~p3将计算结果传给进程p0，p0负责将所有结果数据写到文件。

显然，这个模式下负责读写文件的进程是性能瓶颈，读写带宽受限于p0所在计算服务器的网络带宽、存储系统的单进程性能上限。即使采用并行存储系统，也无法改善IO性能。

640?wx_fmt=png

图 1

640?wx_fmt=png

图 2

多个进程分别读写：每个进程只操作自己的文件，彼此间不协调，相互独立，如图3。这种模式既能同时使用计算服务器的多个网络通道，又能发挥并行存储系统的多客户端接入能力。缺点是供读取的源数据文件可能没有进程数量多（大型程序会用成千上万、百万的进程），造成负载不均；输出的文件数据太多，后续处理困难。

640?wx_fmt=png

图 3

多个进程读写同一个文件：多个进程相互配合，避免无用操作，如图4。这种模式下MPI并行IO性能有望达到最好。

640?wx_fmt=png

图 4

优化技术：数据筛选（Data Sieving）

在“多进程读写同一个文件”模式下，假设4个进程分工处理一个大数组A，如图5。根据边界最小原则划分，每个进程负责一个角上的数据。

640?wx_fmt=png

图 5

假设数组A及其子数组在文件中和内存中均按行存放(C语言模式)，那么4个进程内存中的子数组摆放形式就如图6所示。

特别注意，操作系统普遍的支持的POSIX协议只允许读写连续的数据段，不能1次读写有“空洞”的数据段。仔细找找，C语言、Fortran语言的文件操作函数中没有读写不连接数据的函数吧。

640?wx_fmt=png

图 6

那么问题来了，对进程p0而言，内存中连续的4个数a₁₁、a₁₂、a₂₁、a₂₂在文件中却是不连续的，MPI后台需要调用2次读函数才能完成任务。真实的程序中可能需要多调用成百上次读函数才能完成一个内存连接段的读取。

IO函数的调用延时开销很大，尽量每次多读写一些数据，减少调用次数。这就像送快递，无论是只拉1个包裹还是拉100包裹，每次都要花掉固定的路上时间，当然是批量送货快。

那怎么办呢？MPI在后台开辟一块缓冲区，如图7，将不连续的小数据片段合并，1次读取文件的一大段数据，放入缓冲区，然后筛选出有用的数据放入内存指定位置。虽然读取了一些无效的“空洞”数据，但减少了操作次数，整体上还是划算的。

640?wx_fmt=png

图 7

对写操作来说，为防止覆盖掉最新的“空洞”数据，需要先将数据读入缓冲区，如图8，然后用内存中的数据新值修改缓冲区中的相应位置，最后将缓冲区中的全部数据1次写入文件。

640?wx_fmt=png

图8

优化技术：两阶段IO

在“多个进程读写同一个文件”模式下，“数据筛选”技术遇到了问题：写冲突，如图9。进程p0写文件的时候需要将数据段a₁₁~a₂₂加锁，而进程p1写数据要求对数据段a₁₃~a₂₄加锁，这两个数据段有重叠，因此只能一个进程先写另一个进程后写，被迫串行操作。

640?wx_fmt=png

图 9

不能并行的根本原因是操作了没用的“空洞”数据，因此MPI设计了“两阶段IO”技术，如图10：每个进程都在本地开辟一块缓冲区，每块缓冲区对应一段连续的文件数据；然后进程之间交换缓冲区里的数据。

640?wx_fmt=png

图 10

“两阶段IO”增加了缓冲区之间的数据交换开销，但是这样的数据交换走的是计算服务器之间高速网络，相对于获得的文件操作收益来说还是很划算的。

与并行存储系统配合

前面都假设文件是一个完整的数据流，而实际上文件会被分割成多个条块，按条块打散存放在并行存储服务器里面，查看《纠删码(Erasure Code)的数学原理竟然这么简单》复习打散方法。

如果并行存储服务器上的文件条块大小与进程本地的缓冲区大小相匹配，那么只需从1台存储服务器读取1次就能填满缓冲区，最高效，如图11。

640?wx_fmt=png

图 11

如果文件条块大小与缓冲区大小不匹配，那么填满缓冲区就需要从多台存储服务器读取多次，性能低下，“两段段IO”技术前功尽弃，如图12。

640?wx_fmt=png

图 12

MPI-IO与特定文件系统的配合

如果文件系统本身有“数据筛选”功能，那么关闭MPI的“数据筛选”后性能更好。至于如何协调MPI缓冲区大小和文件条块大小，如何使MPI进程均匀连接并行存储设备，且听下回分解。

文章来源：HPC世界

推荐阅读：

2019闪存趋势: 专利数和堆层一样越来越多？

温馨提示：

请识别二维码关注公众号，点击原文链接获取更多HPC技术资料总结。

640?wx_fmt=jpeg

640?wx_fmt=gif&wxfrom=5&wx_lazy=1