抖音全新推荐大模型RankMixer

最新推荐文章于 2025-10-02 15:13:41 发布

原创最新推荐文章于 2025-10-02 15:13:41 发布 · 1k 阅读

·

5

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #人工智能 #推荐算法

ps：今天研究了一下抖音推荐算法团队出的一篇论文RankMixer: Scaling Up Ranking Models in Industrial Recommenders,新鲜出炉2025.7.26发出的，全文看下来，里面有很浓的deepseek的味道，也是用了混合专家模型(Sparse MoE in RankMixer)。下面就大致分享一下模型中用到的主要模块我这里只做了整体性梳理，详细细节还需看原文。

论文地址如下RankMixer: Scaling Up Ranking Models in Industrial Recommenders

RankMixer模块架构图:

RankMixer流程详细介绍:

1.特征提取embedding,Tokenization序列化:

①特征提取embedding：将用户设置(用户画像)，视频特征，序列特征，交互特征，等数百个特征进行embedding(词嵌入)。

②Tokenization序列化：Automatic Feature Tokenization机制，将输入Token化为维度对齐的Token序列。

③Token分组映射：基于业务先验知识按语义划分特征组，组内特征拼接后等距切分为固定维度的“Token”，每个Token代表一个语义一致的特征子空间，最后将切分后的向量统一映射到模型隐层维度。

2.Token Mixing特征Token全局交叉信息的融合：

①将D维的T个tokens进行Split划分。

②将每个Token的向量分成H个小子空间。

③转置(T)，拼接不同Token在对应head的向量，实现各Token之间的信息交换。

④进行Merge拼接成(T*D//H)维的H个tokens。

⑤最后通过残差和Layernorm，将TokenMixing的结果加回到切分后的原始Token上。

3.Per-token FFN稀疏混合专家模块：

①H个特征tokens通过ReLU Rounting路由机制激活更多专家节点神经元处理高信息量的令牌，并提升参数效率。(即混合专家模型).

tips:这里和deepseek的MoE混合专家模型异曲同工，用稀疏混合专家模块（MoE）代替原有的全连接层。减少计算量的同时提升精度。

4.特征tokens整理输出：

①通过Per-token FFN模块输出的特征tokens和之前Token Mixing的tokens进行残差连接Layernorm。

②mean pooling平均池化，然后分类输出结束，喜欢，跳过，等等。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。