【云原生AI】Fluid + JindoFS 助力微博海量小文件模型训练速度提升 18 倍(1)

最新推荐文章于 2024-10-10 09:56:47 发布

2401_84584817

最新推荐文章于 2024-10-10 09:56:47 发布

阅读量239

点赞数 3

分类专栏：程序员文章标签： java 面试学习

本文链接：https://blog.csdn.net/2401_84584817/article/details/138749197

版权

程序员专栏收录该内容

121 篇文章 0 订阅

订阅专栏

最后的话

无论是哪家公司，都很重视Spring框架技术，重视基础，所以千万别小看任何知识。面试是一个双向选择的过程，不要抱着畏惧的心态去面试，不利于自己的发挥。
同时看中的应该不止薪资，还要看你是不是真的喜欢这家公司，好了希望这篇文章对大家有帮助！

部分截图：
在这里插入图片描述

本文已被CODING开源项目：【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录

需要这份系统化的资料的朋友，可以点击这里获取

1）Fluid

Fluid[1] 是一个运行在 Kubernetes 上可扩展的分布式数据编排和加速系统，它通过数据的编排和使用数据的应用调度，解决云原生编排框架运行此类应用面临数据访问延时高、多数据源联合分析难、应用使用数据过程复杂等痛点。

2）JindoRuntime

JindoRuntimed[2] 是 Fluid 一种分布式缓存 Runtime 的实现，基于 JindoFS 分布式缓存加速引擎。JindoFS 是阿里云 EMR 团队自研大数据存储优化引擎，完全兼容 Hadoop 文件系统接口，给客户带来更加灵活、高效的计算存储方案。JindoRuntime 使用 JindoFS 的 Cache 模式进行远端文件的访问和缓存，支持 OSS、HDFS、标准 S3 协议等多种存储产品的访问和缓存加速。在 Fluid 上使用和部署 JindoRuntime 流程简单、兼容原生 K8s 环境、可以开箱即用。深度结合对象存储特性，使用 Navite 框架优化性能，并支持免密、checksum 校验等云上数据安全功能。

使用基于 JindoRuntime 的 Fluid 的原因

Fluid 可以将数据集编排在 Kubernetes 集群中，实现数据和计算的同置，并且提供基于 Persistent Volume Claim 接口，实现 Kubernetes 上应用的无缝对接。同时 JindoRuntime 提供对 HDFS 上数据的访问和缓存加速能力，并且可以利用 FUSE 的 POSIX 文件系统接口实现可以像本地磁盘一样轻松使用 HDFS 上的海量文件，pytorch 等深度学习训练工具可利用 POSIX 文件接口读取训练数据。

针对海量小文件的远程数据访问性能问题，JindoRuntime 对小文件的数据组织管理和访问性能进行了大量针对性的优化，能够提供高效的小文件访问性能，远高于直接对 HDFS 的数据访问性能。

提供元数据和数据分布式分层缓存，以及高效小文件检索。

提供数据预热机制，避免在训练时刻拉取数据造成的数据访问竞争。

Slab allocation 方式组织文件数据，高效利用缓存空间。

通过 Fluid 的数据感知调度能力，用户无需知道缓存节点信息就可以将任务放置到有缓存数据的节点，实现数据访问性能的优势最大化。

对于大文件和小文件提供不同的缓存策略和存储方式，对于小文件 AI 训练场景具有很好的自适应性，无需用户配置。

3. 落地实践

选择合适的缓存节点：使用 JindoRuntime 可以获得更好的数据本地性能，在实际生产中我们也发现不是所有的节点都来做缓存性能就比较好。原因是有些节点的磁盘和网络 IO 性能不是很好，这个时候需要我们能够把缓存节点尽量选择一些大容量磁盘和网络较好的节点上去。Fluid 支持 dataset 的可调度性，换言之就是缓存节点的可调度性，我们通过指定 dataset 的 nodeAffinity 来进行数据集缓存节点的调度，从而保证缓存节点可高效的提供缓存服务。

指定 Master 调度策略：JindoRuntime 由 master/worker/fuse 三部分组成，master 负责集群的大脑，负责元数据和集群缓存的管理，所以 master 节点得具有很强的可靠性和故障恢复速度。在生产过程中我们发现在不使用多 master 的条件下，单个 master 也具有很强的稳定性和故障恢复速度，影响 master 节点稳定性的重要因素还是宿主机的稳定性，比如宿主机满磁盘、通信故障等，基于此我们对 mater 节点使用 nodeselector 来选择性能较好的宿主机作为 master 容器的环境，进一步保证 master 环境的稳定性。

定时数据预热：在进行训练前的一个重要的步骤是进行元数据和数据的预热，Fluid 提供了 CRD 的形式进行元数据和数据的缓存，在训练前将训练文件的元数据和数据缓存到本地，可大大加速训练速度。但是存储在 HDFS 上的训练文件是每天一次更新，于是需要进行周期性定时的进行数据预热流程，基于 dataload 的 CRD，我们使用 cronJob 的形式进行周期性调度，使得在每次训练前都能够完成元数据和数据的准备，从而进行高效训练。当然 JindoRuntime 本身也支持增量同步的功能，所以每次只需要更新变化的文件即可，也大大加快了数据预热的速度。

4. 性能测试方案

为了验证以上方案的整体效果，我们从稳定性、性能不同角度进行了验证，这里着重介绍性能测试方案，训练的模型都是基于 mmaction 的视频理解模型，采用的是 rawframes_train 方式，是拥有 400w 图片的训练数据集实验，数据是从真实业务场景中提取的 40w 视频中抽帧得到，每个场景下抽 10 帧图片，由于视频清晰度各异，每张图片大小由几 KB 到十几 M 各异，总计大小 780G 左右，每个缓存节点提供 300G 的缓存空间；同时根据经验一般在 50epoch 左右会实现模型收敛。

而当我们把测试的视频数据量调整到 100w，总共的数据大小 2T，由于数据量大和延时长，HDFS 接口的方式完全不能工作；而通过 Fluid+JindoRuntime 则可以满足业务的需要。

测试的流程是会通过 Fluid JindoRuntime 进行数据预热，之后进行模型训练。

性能测试结果

结合 Fluid+JindoRuntime 方案，在数据预热的前提下，我们取得了非常明显的训练速度提升，从下图可以看到：在 3 机 12 卡的场景下，我们发现基于 HDFS 接口读取数据的实验往往会因为网络通信等问题中断，导致实验不能跑完，增加异常处理后，workers 之间的等待时间加长，导致增加卡数并不能增加训练速度，反而会拖慢。可以观察到 1 机 8 卡和 3 机 12 卡的场景总体训练速度基本持平，计算资源的扩容。而通过新的方案，我们发现相比于 HDFS 接口，1 机 4 卡可以得到 5 倍的加速，2 机 8 卡可以得到 9 倍的加速，3 机 12 卡可以得到 18 倍的加速。

在这里插入图片描述

由于训练的速度和稳定性得到了保障，端到端的模型训练时间也得到了显著的提升，训练总时长由原来的 389 小时（16 天）缩短到了 16 小时。

在这里插入图片描述

总结：从两周到 16 小时的训练速度跃升

集成了 Fluid+JindoRuntime 后，显著提升了小文件场景模型训练的性能和稳定性，在多机多卡分布式训练的情况下，可以将模型训练的速度提升 18 倍；将过去需要两周才能完成的训练缩减到了 16 个小时。更短的训练时间和更小的 HDFS 压力，也提升了训练任务的稳定性，将训练的成功率从 37.1% 提升到了 98.3%。目前我们在生产环境的数据量是 4TB，同时随着不断迭代数据量还在持续增长。

微博 AI 训练场景对于数据读取有很高的性能要求，而且海量的小文件对于访问延时也非常敏感，通过 JindoRuntime 的缓存能力可以有效地对大数据存储系统上的数据进行缓存加速，提供稳定可靠的高吞吐、低延时的数据访问性能，同时也可以有效地缓解对后端存储系统的的压力，保证后端存储的稳定性。结合自身的具体场景，优化小文件读取和缓存，不仅可以缓解 HDFS 集群的 IO 压力，也大大提高训练效率。

展望

目前 Fluid+JindoRuntime 更像是杀手锏，用来加速小文件场景，而非常规性武器对于所有数据集进行加速优化，我们期望能够把弹性的数据加速作为微博深度学习平台的差异化能力，提升整体训练任务速度和计算资源的利用率；另一方面也帮助社区不断演进，帮助到更多的开发者。具体来说：

支持定时任务支持动态扩缩容

数据预热性能的提升和元数据备份机制的提供，实现快速重建数据集的能力

提供性能监控控制台

支持 Runtime 元数据的高可用和镜像升级

支持规模化 K8s 集群中多数据集的全生命周期管理

致谢

感谢阿里云 JindoFS 团队的辰山、扬礼和容器团队的车漾在整个方案设计和优化过程中的巨大帮助，在几乎没有任何应用改造前提下，将数据加速能力赋予了现有应用；同时对于测试和生产环境中的需求和问题也及时专业的提供了支持。