【PyTorch基础教程30】DSSM双塔模型（线上召回 | 模型更新）

山顶夕景

已于 2023-07-12 15:48:55 修改

阅读量2.8k

点赞数 7

分类专栏：推荐算法深度学习文章标签：推荐算法 pytorch

于 2022-06-22 22:13:50 首次发布

本文链接：https://blog.csdn.net/qq_35812205/article/details/125383309

版权

推荐算法同时被 2 个专栏收录

81 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

深度学习

148 篇文章

订阅专栏

本文介绍了召回模型的基础知识，包括point-wise、pair-wise、list-wise三种训练方式及其损失函数。重点讨论了DSSM模型，包括微软和百度版本的特点，以及其在推荐系统中的应用。模型训练和评估过程中的关键步骤如特征预处理、模型定义、模型训练和embedding召回评估也进行了详细阐述。此外，文中还探讨了双塔模型在业界的部署策略，如离线存储和在线召回，并讨论了模型更新的全量和增量方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

内容总结

在这里插入图片描述

召回中，一般的训练方式分为三种：point-wise、pair-wise、list-wise。RecHub中用参数mode来指定训练方式，每一种不同的训练方式也对应不同的Loss。对应的三种训练方式可以参考下图，其中a表示user的embedding，b+表示正样本的embedding，b-表示负样本的embedding。
- 前面两行是指pointwise即图例看待每个正负样本，使用二分类交叉熵
- pairwise：每次选择一个正样本和一个负样本，使用Hinge loss或者BPR loss损失函数
- listwise：每次选择一个正样本和多个负样本，使用softmax loss函数，其实就是多分类问题（如下图最下面的CrossEntropyLoss函数）
召回中样本的选择：
- 正样本：用户点击的物品
- 负样本：没有被召回的；召回但是被排序淘汰的；曝光但是未点击的
微软DSSM奠定的基本思想：
- 离线使用cosine优化相似度
- 在线使用ANN向量化召回
- 首次提出随机负采样
YouTube双塔的思想：
- In-batch sampled softmax：首次提出in-batch负采样，在batch中除了item以外的所有item作为负样本
- Sample-Bias Corrected：
  - Batch内出现的是随机采样的结果，热门物品被采样概率大，造成热门惩罚过高
  - 流式纠偏模块：通过采样频率估计采样概率（简单trick：可他通过全局被采频率代替）
排序看特征，召回看样本。

在这里插入图片描述

向量召回：Annoy或者Faiss向量搜索库
召回的难点：
- 样本构造不容易，比如负样本比例，负样本采样规则
- 缺乏置信度高的离线评估指标：
  - AUC只能参考
  - Facebook：拿topk召回结果与用户实际点击做交集并计算precision、recall
  - Airbnb：看用户“实际点击”在召回结果中的平均位置
  - 多样性
- Pytorch中没有sampled softmax：手动提前负采样一些负样本，和本次的1个正样本计算