内容总结
- 召回中,一般的训练方式分为三种:point-wise、pair-wise、list-wise。RecHub中用参数
mode
来指定训练方式,每一种不同的训练方式也对应不同的Loss。对应的三种训练方式可以参考下图,其中a表示user的embedding,b+表示正样本的embedding,b-表示负样本的embedding。- 前面两行是指pointwise即图例看待每个正负样本,使用二分类交叉熵
- pairwise:每次选择一个正样本和一个负样本,使用Hinge loss或者BPR loss损失函数
- listwise:每次选择一个正样本和多个负样本,使用softmax loss函数,其实就是多分类问题(如下图最下面的CrossEntropyLoss函数)
- 召回中样本的选择:
- 正样本:用户点击的物品
- 负样本:没有被召回的;召回但是被排序淘汰的;曝光但是未点击的
- 微软DSSM奠定的基本思想:
- 离线使用cosine优化相似度
- 在线使用ANN向量化召回
- 首次提出随机负采样