分享嘉宾
孙颢宁
Shopee Data Infra 分布式存储开发工程师
分享大纲
- AI 平台面临的挑战
- Alluxio 加速AI 训练的实践
- Alluxio 的性能探索
- Alluxio 的大版本滚动升级
- 未来规划
AI 平台面临的挑战
在打造 AI 平台前,不同部门的算法团队都需要自己去申请购买云服务,资源利用率低。公司决定搭建训练机房,构建 AI 平台。我们开发 AI 平台面临的如下几大挑战:
数据规模
数据是驱动 AI 技术发展的重要基础。随着 AI 技术的不断发展,训练模型所需的数据量也在迅速增加,从数百GB到TB级别不等,需要有效地存储和管理这些数据。
数据访问
在分布式训练环境中, 数据传输要求高效的协议以及带宽管理来做支撑,训练过程中会有大量读写,可能导致 I/O 瓶颈,从而影响训练速度。
调度和资源管理
AI 平台面向所有算法开发人员,会运行大量任务,此时,高效的任务调度变得极为重要,需要它来保证任务的负载均衡,同时需要确保计算资源和存储资源的高效利用。
数据存储方面,训练的原始数据是存储在 HDFS 上的,AI 平台还会使用对象存储。任务调度和资源分配则主要受益于云技术的发展。
为什么选择 Alluxio

加速数据访问训练方面,AI 平台主要做了目前市面上的两个主流工具的调研:Alluxio 和 JuiceFS,它们分别有图上所示特性。
基于 AI 平台的架构设计需求,目前 Alluxio 能够较好覆盖这些需求,所以 AI 平台最终选择了 Alluxio 作为缓存加速层。
Alluxio 加速 AI 训练的实践
在 AI 平台的整个调度与训练流程中,Alluxio 贯穿了数据准备、训练以及数据更新多个阶段。下面是具体的架构图,图中上半部分是 DI 部门的 Alluxio 集群,底层存储是 HDFS,下半部分是 AI 平台集群。

- 通过 S3 协议向 Alluxio Proxy 服务请求以获取原始数据;
- 通过在 K8S 上启动 Alluxio;
- 集群来预加载全部数据;
- 通过 Alluxio-FUSE 读取数据以支持训练任务;
- 用户数据

最低0.47元/天 解锁文章
1073

被折叠的 条评论
为什么被折叠?



