✍🏻 本文作者:玄慈、石浪、松岳、满神
丨目录:
· 概述
· PICASSO技术转化
· 工业级稀疏训练
· 系统架构
· 核心技术设计
· 主要指标表现
· 参考文献
▐ 概述
近日,阿里巴巴自研稀疏训练引擎论文《PICASSO: Unleashing the Potential of GPU-centric Training for Wide-and-deep Recommender Systems》被国际数据工程顶级会议ICDE 2022 (International Conference on Data Engineering) 收录。PICASSO(Packing, Interleaving and Caching Augmented Software System Optimization)是阿里巴巴智能引擎事业部广告训练引擎XDL团队和阿里云计算平台PAI团队深度合作研发的成果,在集团内部PICASSO作为XDL2、PAI-Tensorflow和PAI-HybridBackend三个产品服务于搜索、推荐、广告业务。本文将对PICASSO训练引擎的设计方案及思路展开介绍,欢迎阅读交流。
搜推广模型训练的性能会直接影响到迭代开发效率及模型时效性,如今已是一项非常热门的研究主题。阿里巴巴在搜推广稀疏模型训练优化上有着深厚的经验与积累,近年来我们也看到大量相关设计或是为解决某类问题的新方案不断涌现。然而,随着模型复杂度以及数据规模的快速增长,即便有多种稠密计算及稀疏处理的优化,在通用硬件上的训练任务仍然不能表现出持续高水平的资源使用率。结合阿里巴巴实际业务场景,我们进一步探索了提升资源利用效率的方法,在满足业务质量的严苛要求的同时,也期望可以起到抛砖引玉的作用,吸引更多从事相关工作的同学提出更为高效优雅的稀疏训练解决方案。
▐ PICASSO技术转化
阿里巴巴XDL2训练引擎
XDL是阿里巴巴自研的PS训练模式的稀疏训练引擎,通过高并发的方式提升在混部集群中搜推广任务的训练效率。自2018年开源以来,XDL团队结合工业实践对XDL框架进行了大范围的革新,包括但不限于I/O、通信、访存、编译优化、软硬件计算加速等。XDL2是综合XDL多年的业务经验与PICASSO中所介绍技术的成果,支持在高性能集群中充分利用硬件优势提升训练效率,为阿里巴巴内部的多条搜推广业务线训练任务保驾护航。
阿里云HybridBackend高性能稀疏训练引擎
HybridBackend是阿里云推出的提升稀疏模型在异构硬件集群训练效率的训练框架,服务阿里云数十家搜推广业务用户,平均带来了2-3倍的训练性能提升。HybridBackend将PICASSO中所介绍的技术作为Tensorflow的扩展,能够享受到Tensorflow社区的最新加速技术并在异构集群中最大化提升训练效率,且与基于Tensorflow实现的前沿学术或工业优化策略完全正交。
GitHub地址:https://github.com/alibaba/HybridBackend
▐ 工业级稀疏训练

稀疏训练主要由Embedding阶段, 特征交叉(feature interation)阶段和多层感知器(MLP)阶段组成。实际训练中&#