推荐算法中常用负采样策略

最新推荐文章于 2024-07-10 23:30:51 发布

NUS_Ryan

最新推荐文章于 2024-07-10 23:30:51 发布

阅读量962

点赞数

分类专栏：机器学习文章标签：推荐算法人工智能

原文链接：https://zhuanlan.zhihu.com/p/547533183

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

转载于 : https://zhuanlan.zhihu.com/p/547533183
训练样本决定了推荐算法中深度模型的上限，从理论上来说我们的采样应该尽可能覆盖样本空间中的所有数据。大部分情况下，点击率预估模型使用的正样本定义为user的点击行为，负样本定义为曝光未点击行为，但是样本常常会出现几个问题：

1、曝光未点击行为不一定能代表user真正不感兴趣的信息，曝光未点击有可能的原因是user已经看过该内容或者准备下次再看，也有一些user不感兴趣的内容因为没有曝光而没有被采样到负样本里。

2、对于大部分的点击率预估场景正负样本的比例都是非常悬殊的，该比例从1：50到1：500都有可能。极度不均衡的正负样本比例导致深度模型无法从正样本中学习到足够的信息，无法得到预期的训练效果。

从user未交互item中基于一定策略进行负样本筛选的过程就被成为负采样（negtive sampling），负采样的几个目的在于

1、平衡正负样本比例

2、筛选出信息量更高的负样本

3、可以消除由于曝光引起的样本偏差

4、同时通过负采样可以降低由于数据量大产生的内存和训练时长的问题

Tricks
提高负样本信息量：

1、回溯user的点击历史，在当天的负样本中去掉user近一周点击过的item。如果过去有过点击历史，说明user并不是对这个item不感兴趣，只是看过了不想再看

2、在负样本中对user粒度进行曝光次数进行排序，只选取曝光最多次未点击的数据作为负样本。同样不点击的情况下，默认认为曝光次数越高user对于该item不感兴趣的程度也越高。

3、去掉只有正样本或者只有负样本的user样本/item样本，可以一定程度上减少过拟合的情况。

消除曝光造成的偏差：

1、除了采用曝光未点击数据作为负样本以外，也可以从召回结果中user未点击且未曝光的item作为负样本，这种全局采样的方法可以在一定程度上消除一些item由于没有曝光造成的样本偏差问题。

2、基于流行度（item的交互次数）对负样本里的item进行带权采样。流行度越高的item受到用户喜爱的概率也越大，因此如果流行度高的item出现在负样本里可以认为它的信息量越大。但是这种方法有可能引入新的偏差，需要根据自己的业务来判断是否使用。

其他：

1、基于重要指标对负样本里的item进行带权采样。例如在业务中想要强化交互时长指标在模型中的作用，可以在负样本中提高交互时长较低的item采样概率。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
推荐算法中常用负采样策略

流行度越高的item受到用户喜爱的概率也越大，因此如果流行度高的item出现在负样本里可以认为它的信息量越大。1、曝光未点击行为不一定能代表user真正不感兴趣的信息，曝光未点击有可能的原因是user已经看过该内容或者准备下次再看，也有一些user不感兴趣的内容因为没有曝光而没有被采样到负样本里。1、除了采用曝光未点击数据作为负样本以外，也可以从召回结果中user未点击且未曝光的item作为负样本，这种全局采样的方法可以在一定程度上消除一些item由于没有曝光造成的样本偏差问题。1、平衡正负样本比例。
复制链接

扫一扫

专栏目录

NUS_Ryan CSDN认证博客专家 CSDN认证企业博客

码龄6年

59: 原创

73万+: 周排名

15万+: 总排名

5万+: 访问

: 等级

1031: 积分

306: 粉丝

151: 获赞

3: 评论

351: 收藏

私信

关注

热门文章

分类专栏

最新评论

GPU基础与CUDA编程入门
CSDN-Ada助手: 亲爱的博主，非常感谢你为读者们提供了一篇关于"GPU基础与CUDA编程入门"的博客。我真心为你的辛勤付出和专业知识点赞！你的文章内容通俗易懂、深入浅出，对于初学者来说非常有帮助。鉴于你对GPU和CUDA编程有着深入的了解，我期待你能继续撰写相关的博客文章，进一步分享一些高级GPU编程技巧和应用案例。我相信你的专业知识和清晰的讲解能够帮助读者更深入地理解并应用GPU加速的技术。因此，我提议你可以考虑下一个主题：“高级GPU编程与实践：深入探索CUDA的强大潜力”。这个主题将吸引那些渴望进一步提升GPU编程技能的读者，并给予他们更多实用的指导和启发。期待你继续在这个领域分享你的知识和经验，相信你的新博客将再次为读者们带来巨大的收益！祝你写作愉快，期待与你的下一篇文章相见！
计算机网络(六): HTTP,HTTPS,DNS,网页解析全过程
呆呆敲代码的小Y: 宝藏博主！感谢分享欢迎大佬来我这参观~
git rebase和git merge的区别
CSDN-Ada助手: 软件工程问题：每次里程碑结束后，我们向客户汇报的时候，客户总是会惊讶地说，某某功能不是我们当初商量的那样啊，而PM却也同样一脸诧异地说，不对啊，当时咱们就是这么说好的啊，有文档为证。客户不干了，威胁不加/不改xx功能就如何如何，这时PM该怎么办?
MySQL(三):切分，主从复制，读写分离
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/613499706。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。