推荐系统之召回：基本原理和前沿研究（2023）

Ben_Fu

已于 2024-02-24 23:03:21 修改

阅读量3.4k

点赞数 3

分类专栏： RS 文章标签：推荐算法人工智能

于 2023-09-24 20:40:20 首次发布

本文链接：https://blog.csdn.net/nihaomafb/article/details/133249562

版权

4 篇文章

订阅专栏

对工业界和学术界（截止2023-09）的相关工作进行调研，并结合自身工作经验，总结常用的召回策略和前沿研究方向。具体内容报告请见：

非个性化召回
- 规则策略：地理召回、热门召回……
- 过滤：疲劳降权、黑白名单过滤、内容低质量过滤……
类目、标签、关键词召回（u2c2i）：
- 原理：用户画像 -> 类目/标签/关键词 -> 物品。（考虑时间）
- 离线建立用户画像索引库和物品画像索引库。
- 在线根据用户得到物品兴趣偏好列表。
内容相似（聚类）召回(u2c2i)：
- 原理：用户最近喜欢的物品 -> 查找相似内容（类） -> 物品。
- 离线训练内容相似度模型，如文本BERT、图像CNN （以及考虑跨模态检索），根据物品内容相似度对物品聚类，构建向量索引。
- 在线获取用户近期感兴趣的 $n_1$ 个物品，检索其内容相似物品(约 $n_1k$ 个)，计算其兴趣分数。
- 在线按照兴趣分数进行排序取top- $n_2$ 个物品召回。
Look-Alike和社交关系召回：
- 原理：物品的种子用户 -> 相似用户。
- 离线计算用户之间的相似度，建立“用户 -> （top-k相似）用户”索引。
- 在线获取物品最近点击用户，根据这些种子用户获取其top-k相似用户集合。

- 矩阵填充：（u2i，实践中一般效果不好）
  - 原理：矩阵分解方法MF、PMF、NMF、SVD等。
  - 离线进行矩阵分解得到用户侧嵌入和物品侧嵌入，并建立向量索引（如Faiss）。
  - 在线通过用户嵌入进行最近邻查找找到用户感兴趣的物品集合。
  - 在线按照兴趣分数进行排序取top- $n_2$ 个物品召回。

知识图谱召回（u2g2i）[2]：
- 原理：基于知识图谱发现用户节点触达的物品。
- 离线进行矩阵分解得到用户侧嵌入和物品侧嵌入，并建立向量索引（如Faiss）。
- 在线通过用户嵌入进行最近邻查找找到用户感兴趣的物品集合。
- 在线按照兴趣分数进行排序取top- $n_2$ 个物品召回。

- 自监督增强双塔模型：长尾物品的表征学的差。利用自监督学习来增强表征，随机mask部分特征进行预测。附加一个自监督损失。
- 双塔模型魔改：特征交叉和模型集成等。

多兴趣召回模型（u2i & i2i）[3~6]：
- 原理：挖掘用户行为序列中存在多种兴趣偏好，召回走top-k路由通路（软聚类）。
- MIND [3]：采用胶囊网络来建模多个兴趣点，采用其路由机制映射到对应兴趣点。

- DemiNet [11]：用户行为序列存在噪音和稀疏问题（自监督）且多个兴趣点存在关系。
- MISS [12]：用户行为序列上的特征（行）和兴趣（列，相邻行为CNN）级别自监督学习。

负样本：
- 简单负样本：未被召回的物品，占绝大多数，几乎为全体物品。（50%）
- 困难负样本：排序淘汰的物品。（50%）
- 极困难负样本：曝光未点击的物品，用户喜欢但未点击不能作为召回负样本，损害召回性能。
负采样策略 [14]：
- 热度采样：如 $p \propto pv^{0.75}$ ，采样概率可转化为权重。
- Batch内负采样。
- 其他策略：地域敏感进行地域采样（同城、商圈等）。
曝光去重复：
- Bloom 过滤器：多个哈希映射函数，没命中一定不在曝光集合。

数据特征预处理
- 获取并过滤T+2天离线数据（spark/hive实现，根据业务特点设计T，如BOSS直聘采用7+2）。
- 构建特征集（验证特征有效性）。
- 构建正负样本集（不同采样比例）。
模型分布式训练
- 基于TF2.0或pytorch实现模型。
- 在分布式集群或者多GPU卡训练（模型一般迭代2～3轮就会收敛，耗时几小时）。
- 调优模型（特征工程+模型架构等，这部分耗时较长）并评估效果。
- 保存模型训练过程日志和模型文件（包括嵌入表并利用Faiss/ES等ANN工具构建索引）。
在线推理：
- 利用RPC调用模型服务TF-serving。
- 实时特征获取、拼接和推理。