关于负样本采样的一些思考

最新推荐文章于 2023-02-16 19:32:24 发布

Weiyaner

最新推荐文章于 2023-02-16 19:32:24 发布

阅读量897

点赞数

分类专栏：搜索算法推荐系统与机器学习文章标签：负样本采样

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42327752/article/details/124429322

版权

推荐系统与机器学习同时被 2 个专栏收录

13 篇文章 21 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

本文探讨了搜索引擎和推荐系统中，召回阶段和排序阶段负样本采样的不同策略。在排序阶段，通常使用曝光未点击的样本作为负样本，以反映用户的真实偏好。而在召回阶段，由于目标是区分用户可能喜欢和不靠谱的项目，采用随机采样能更好地模拟线上环境，提高模型的泛化能力。负样本的选择直接影响模型训练和最终效果，因此正确采样至关重要。

摘要由CSDN通过智能技术生成

部分参考 Facebook的EBR模型论文：
https://dl.acm.org/doi/pdf/10.1145/3394486.3403305

搜索推荐流程中，对于负样本采样，是选择曝光未点击样本还是随机采样作为负样本，需要看所处的阶段是在召回阶段还是排序阶段。

排序阶段的负样本采样

在排序阶段，通常使用“曝光未点击”的样本做负样本。此刻，曝光未点击就代表着用户的真实偏好，如果进行随机抽取的话，可能该样本就没有进行曝光过，不能断定用户一定不喜欢。

为此，还有所谓above click的作法，即只拿点击以上的未点击文章做负样本。

召回阶段和排序阶段的不同之处

召回和排序除了要求速度不同之外，二者的目标也决定了面临的数据环境不尽相同。

排序目标是：“从用户可能喜欢的当中挑选出用户最喜欢的”，属于优中选优。
召回目标在于：“是将用户可能喜欢的，和海量对用户根本不靠谱的，分隔开”，所以召回在线上所面对的数据环境，就是 鱼龙混杂、良莠不齐 。

召回阶段的负样本采样

所以，要求喂入召回模型的样本，既要让模型见过<user,doc>最匹配的，也要让模型见过<user,doc>最不靠谱的，才能让模型达到" 开眼界、见世面 "的目的，提高泛化能力。

其中，最匹配的自然就是曝光点击样本。

而最不匹配的并不是“曝光未点击样本”。因为曝光未点击样本是从线上日志获得的训练样本，已经是上一版本的召回、粗排、精排替用户筛选过的，即已经是对用户“ 比较靠谱 ”的样本了。拿这样的样本训练出来的模型做召回，相当于将负样本的门槛拉低了，这并不是最差的负样本，把它当做0标签，所产生的模型的线上效果会大大降低。

因此，召回阶段，为了模拟线上召回阶段的数据分布，使用随机采样，才能更加合理

离线训练数据的分布，应该与线上实际应用的数据，保持一致。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Weiyaner 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。