网易云音乐基于YouTube 推荐系统双塔架构解析（含代码）

规模问题：传统的推荐算法在面对YouTube这种规模下的海量候选视频时难以胜任，需要采用特殊的分布式训练和高效的模型推理。
内容新鲜度：平台每天上传海量新视频，推荐系统必须能及时捕捉用户最新兴趣，同时不忽略热门视频。
数据噪声：用户的历史行为存在稀疏性且受许多不可观测因素影响，反馈信号（如视频观看时长）较为隐晦，标签噪声明显。这要求模型在设计和训练时对噪声具有鲁棒性。

2、系统架构概述——双塔架构简介

YouTube 推荐系统采用了 Two-Tower 模型（双塔模型） 架构来高效处理大规模候选召回任务：

左边是用户塔（User Tower）：用来学习用户兴趣的表示。
右边是物品塔（Item Tower）：用来学习视频的嵌入向量。
中间通过点积计算相似度：用户和视频向量计算相似度，用于召回排序。

           +-------------------+             +------------------+
           |                   |             |                  |
           |    User Tower     |             |    Item Tower    |
           |                   |             |                  |
           +--------+----------+             +---------+--------+
                    |                                  |
         用户稀疏 + 密集特征嵌入                        视频ID嵌入
                    |                                  |
           多层DNN网络提取兴趣向量                 视频Embedding
                    |                                  |
                    +-------------+--------------------+
                                  |
                          点积相似度（内积）
                                  |
                        得分越高表示越相关

2.1 核心目标

快速召回“最可能感兴趣”的 Top N 视频，而不是从百万视频中一个个比对。

2.2 实现细节

论文将整个推荐流程划分为两个阶段，每个阶段都用到了深度神经网络模型：

第一个步骤：筛选候选视频
- 系统会观察你以前都看了哪些视频、搜索了什么内容、你的基本信息（比如年龄、地区等），然后把这些信息通过“深度学习”转化成一些数字，理解你可能喜欢什么；
- 因为视频库实在太大了（数以百万计），系统用一种叫“负采样”的方法，快速地从中选出一小部分视频作为候选，既能保证速度又保持一定的准确性。