之前对召回和排序训练数据的产生有很多疑惑,现在来归纳总结~
召回主要是负样本;排序主要是特征。
首先需要了解候选池有多大?候选池小根本不用做召回,可以直接排序。
如果用户根本没有点击过任何的item,那么这个用户需要去除吗?直接去除(只有负样本,没有正样本)
召回
- als矩阵分解类算法(一天一次,没有实时行为)
- fpg itemcf类
- itemcf比矩阵分解效果好一些
-
u2i算作一路召回(youtubeDNN),一般来说i2i(item2vec)的效果更好;DSSM就是u2i召回,感觉用的更多。
排序
- lightgbm 对分类特征好一点;
- xgb 连续特征好一点,cnt次数这种ui交互类特征。
- xgb+lr:流量大的场景用这种
排序算法很重要的特征:除了用户行为类,还有ui交互这种统计类特征。比如说,用户点了某个品类多少次?点了很多的鞋子,说明对鞋子很感兴趣。
统计类交互特征 如何理解?如上
参考: