【云原生AI】Fluid ，三面美团、四面阿里成功斩下offer

最新推荐文章于 2024-08-06 16:10:08 发布

m0_64867152

最新推荐文章于 2024-08-06 16:10:08 发布

阅读量1.4k

点赞数

分类专栏：程序员文章标签：面试 java 后端

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_64867152/article/details/121767189

版权

本文介绍了微博深度学习平台如何利用Fluid和JindoRuntime提升训练速度和GPU利用率。通过数据本地化和分布式缓存，解决了HDFS负载压力，实现了小文件高效访问，加速了模型训练，将原本两周的训练时间缩短至16小时。

摘要由CSDN通过智能技术生成

Fluid + JindoRuntime：为微博深度学习平台提供高效支撑

为了能更好满足大规模深度学习模型训练的计算需求，需要取得更好的数据本地性效果。因此，我们希望达到以下目标：

计算能够充分利用本地化访问数据，这样数据就不需通过网络反复读取，加速深度学习模型训练的速度和提升集群的 GPU 使用率。

降低 HDFS 负载压力，通过应用对于部分数据的本地读取，减小数据访问延时和提升 HDFS 的可用性。

充分发挥热点数据集的缓存节点优势，在对用户无感知的前提下，智能的将任务调度到数据缓存节点上。让常用的模型训练程序越来越快。

通过 POSIX 接口读取数据，这样无需在模型开发和训练阶段使用不同的数据访问接口，降低开发深度学习模型程序的成本。

为了达到上述目标，我们迫切希望找到 Kubernetes 上具有分布式缓存加速能力的软件。很幸运，我们发现 CNCF Sandbox 项目 Fluid 正好可以满足我们的诉求。于是，我们设计了基于 Fluid 的新架构方案，经过验证比较，我们选择 JindoRuntime 作为加速运行时。

在这里插入图片描述

架构组件介绍

1）Fluid

Fluid[1] 是一个运行在 Kubernetes 上可扩展的分布式数据编排和加速系统，它通过数据的编排和使用数据的应用调度，解决云原生编排框架运行此类应用面临数据访问延时高、多数据源联合分析难、应用使用数据过程复杂等痛点。

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【云原生AI】Fluid ，三面美团、四面阿里成功斩下offer

Fluid + JindoRuntime：为微博深度学习平台提供高效支撑为了能更好满足大规模深度学习模型训练的计算需求，需要取得更好的数据本地性效果。因此，我们希望达到以下目标：计算能够充分利用本地化访问数据，这样数据就不需通过网络反复读取，加速深度学习模型训练的速度和提升集群的 GPU 使用率。降低 HDFS 负载压力，通过应用对于部分数据的本地读取，减小数据访问延时和提升 HDFS 的可用性。充分发挥热点数据集的缓存节点优势，在对用户无感知的前提下，智能的将任务调度到数据缓存节点上。让常用的
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。