案例分享|Shopee 在 Alluxio 加速 AI 训练的实践与探索

分享嘉宾

孙颢宁
Shopee Data Infra 分布式存储开发工程师

分享大纲

  • AI 平台面临的挑战
  • Alluxio 加速AI 训练的实践
  • Alluxio 的性能探索
  • Alluxio 的大版本滚动升级
  • 未来规划

观看完整分享

AI 平台面临的挑战

在打造 AI 平台前,不同部门的算法团队都需要自己去申请购买云服务,资源利用率低。公司决定搭建训练机房,构建 AI 平台。我们开发 AI 平台面临的如下几大挑战:

数据规模

数据是驱动 AI 技术发展的重要基础。随着 AI 技术的不断发展,训练模型所需的数据量也在迅速增加,从数百GB到TB级别不等,需要有效地存储和管理这些数据。

数据访问

在分布式训练环境中, 数据传输要求高效的协议以及带宽管理来做支撑,训练过程中会有大量读写,可能导致 I/O 瓶颈,从而影响训练速度。

调度和资源管理

AI 平台面向所有算法开发人员,会运行大量任务,此时,高效的任务调度变得极为重要,需要它来保证任务的负载均衡,同时需要确保计算资源和存储资源的高效利用。
数据存储方面,训练的原始数据是存储在 HDFS 上的,AI 平台还会使用对象存储。任务调度和资源分配则主要受益于云技术的发展。

为什么选择 Alluxio

在这里插入图片描述

加速数据访问训练方面,AI 平台主要做了目前市面上的两个主流工具的调研:Alluxio 和 JuiceFS,它们分别有图上所示特性。

基于 AI 平台的架构设计需求,目前 Alluxio 能够较好覆盖这些需求,所以 AI 平台最终选择了 Alluxio 作为缓存加速层。

Alluxio 加速 AI 训练的实践

在 AI 平台的整个调度与训练流程中,Alluxio 贯穿了数据准备、训练以及数据更新多个阶段。下面是具体的架构图,图中上半部分是 DI 部门的 Alluxio 集群,底层存储是 HDFS,下半部分是 AI 平台集群。
在这里插入图片描述

  • 通过 S3 协议向 Alluxio Proxy 服务请求以获取原始数据;
  • 通过在 K8S 上启动 Alluxio;
  • 集群来预加载全部数据;
  • 通过 Alluxio-FUSE 读取数据以支持训练任务;
  • 用户数据
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值