关于负样本采样的一些思考

本文探讨了搜索引擎和推荐系统中,召回阶段和排序阶段负样本采样的不同策略。在排序阶段,通常使用曝光未点击的样本作为负样本,以反映用户的真实偏好。而在召回阶段,由于目标是区分用户可能喜欢和不靠谱的项目,采用随机采样能更好地模拟线上环境,提高模型的泛化能力。负样本的选择直接影响模型训练和最终效果,因此正确采样至关重要。
摘要由CSDN通过智能技术生成

部分参考 Facebook的EBR模型论文:
https://dl.acm.org/doi/pdf/10.1145/3394486.3403305

搜索推荐流程中,对于负样本采样,是选择曝光未点击样本还是随机采样作为负样本,需要看所处的阶段是在召回阶段还是排序阶段。

排序阶段的负样本采样

在排序阶段,通常使用“曝光未点击”的样本做负样本。此刻,曝光未点击就代表着用户的真实偏好,如果进行随机抽取的话,可能该样本就没有进行曝光过,不能断定用户一定不喜欢。

为此,还有所谓above click的作法,即只拿点击以上的未点击文章做负样本。

召回阶段和排序阶段的不同之处

召回和排序除了要求速度不同之外,二者的目标也决定了面临的数据环境不尽相同。

  1. 排序目标是:“从用户可能喜欢的当中挑选出用户最喜欢的”,属于优中选优。
  2. 召回目标在于:“是将用户可能喜欢的,和海量对用户根本不靠谱的,分隔开”,所以召回在线上所面对的数据环境,就是 鱼龙混杂、良莠不齐

召回阶段的负样本采样

所以,要求喂入召回模型的样本,既要让模型见过<user,doc>最匹配的,也要让模型见过<user,doc>最不靠谱的,才能让模型达到" 开眼界、见世面 "的目的,提高泛化能力。

其中,最匹配的自然就是曝光点击样本。

而最不匹配的并不是“曝光未点击样本”。因为曝光未点击样本是从线上日志获得的训练样本,已经是上一版本的召回、粗排、精排替用户筛选过的,即已经是对用户“ 比较靠谱 ”的样本了。拿这样的样本训练出来的模型做召回,相当于将负样本的门槛拉低了,这并不是最差的负样本,把它当做0标签,所产生的模型的线上效果会大大降低。

因此,召回阶段,为了模拟线上召回阶段的数据分布,使用随机采样,才能更加合理

离线训练数据的分布,应该与线上实际应用的数据,保持一致 。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Weiyaner

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值