RecIS：Sparse to Dense，统一推荐模型训练框架的革命性突破

最新推荐文章于 2025-12-20 19:32:34 发布

原创最新推荐文章于 2025-12-20 19:32:34 发布 · 801 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #LLM #Agentic

论文阅读专栏收录该内容

129 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

RecIS：Sparse to Dense，统一推荐模型训练框架的革命性突破

随着大模型时代的到来，推荐系统正经历着前所未有的技术变革。阿里巴巴团队推出的RecIS框架，成功解决了PyTorch生态中大规模稀疏训练与密集计算统一的技术难题，实现了训练吞吐量高达2倍的性能提升。本文将深入解析这一突破性框架的核心技术与实践价值。

论文标题：RecIS: Sparse to Dense, A Unified Training Framework for Recommendation Models
来源：arXiv:2509.20883 + https://arxiv.org/abs/2509.20883

PS: 整理了LLM、量化投资、机器学习方向的学习资料，关注同名公众号「 AI极客熊」即刻免费解锁

文章核心

研究背景

现代推荐系统正在经历由数据量和计算能力扩展驱动的范式转变。在数据层面，这不仅包括扩展用户行为序列长度，还包括显著增加训练样本规模；在计算层面，正从传统MLP架构向基于Transformer的模型过渡，后者为大规模序列数据提供了卓越的可扩展性和表示能力。这种转变催生了大规模稀疏-密集混合架构，成为先进推荐系统事实上的标准框架。

研究问题

生态系统分裂：工业级推荐系统长期依赖TensorFlow，因其对大规模嵌入表、分布式训练和生产稳定性的成熟支持；而研究社区越来越青睐PyTorch，因其动态计算图、丰富生态系统以及与多模态和大语言模型的无缝集成
建模挑战：几乎所有前沿大模型的首次官方或社区实现都基于PyTorch，但PyTorch缺乏对稀疏建模的原生支持
系统挑战：大模型的PyTorch生态系统拥有完整的AI基础设施，但稀疏组件引入了新问题，如IO瓶颈、并发灾难和内存带宽限制

主要贡献

生产就绪的PyTorch统一稀疏-密集训练框架：提出RecIS框架，支持大规模稀疏训练，同时与现代大模型生态系统无缝集成。与TorchRec相比，该框架强调工业就绪性，支持无冲突嵌入、高效IO和稀疏处理
以内存为中心的性能建模：建立MBU（Model Bandwidth Utilization）作为推荐系统的第一类指标，类似于大模型中的MFU（Model FLOPS Utilization），为评估和优化系统效率提供了原则性方法
端到端性能优化：通过突破IO Bound、内存Bound和计算Bound，在大规模推荐任务上实现高达2倍的训练吞吐量提升
向后兼容性和部署：框架支持加载TensorFlow检查点和优化器，允许平滑迁移。已在多个生产任务中部署，包括搜索排名和广告定位等，在效率和模型准确性方面都带来了显著改进