推荐系统（十三）样本采样

最新推荐文章于 2024-08-26 01:03:29 发布

LightYoungLee

最新推荐文章于 2024-08-26 01:03:29 发布

阅读量1.6k

点赞数

分类专栏：推荐系统文章标签：机器学习深度学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_37688445/article/details/115033882

版权

推荐系统专栏收录该内容

19 篇文章 21 订阅

订阅专栏

推荐系统在样本采样层面与广告系统的不同点

对于ctr任务中的正负样本不均衡问题，不管是推荐系统还是广告系统，都是需要降采样才能使模型学习的更好，但降采样带来的问题是资源的预测ctr会有一定的偏差，即如果降采样前训练正负样本比例为1:1000，预测正负样本的分布基本在1:1000左右，即每个资源平均的预测ctr在1/1001左右。假如降采样到正负样本比例为1:10，每个资源的平均预测ctr也会在1/11左右。但正常情况下不会影响资源的相对排序，因而不管如何降采样，预测结果的auc是不会变化的。

与推荐系统不同的是，广告系统需要对后续ctr进行矫正，这是因为广告系统比较重视item的ctr的绝对值，因为广告平台真正关注的是广告的CPM，计算公式如下所示：

$C P M = C T R * C P C * 1000$

其中CPM指的是Cost Per Mille，曝光一千次收取的费用，CTR指的是点击率，CPC指的是一次点击的费用，根据上面的描述，降采样后资源预测的ctr会偏高，从而导致CPM会偏高，因而需要对预测的ctr进行矫正，这里只列举简单的基于LR模型的矫正方法：

$\sigma(z) \rightarrow ctr'=\sigma(z-\frac{r'}{r})$

其中 $z$ 代表的是输入到sigmoid之前的数据， $r^{'}$ 代表的是降采样后正样本的比例， $r$ 代表的是降采样前正样本的比例，可以看出矫正后， $c t r^{'}$ 要比 $c t r$ 低。

参考

ctr矫正

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

LightYoungLee CSDN认证博客专家 CSDN认证企业博客

码龄8年

109: 原创

23万+: 周排名

51万+: 总排名

11万+: 访问

: 等级

1918: 积分

71: 粉丝

119: 获赞

45: 评论

261: 收藏

私信

关注

热门文章

分类专栏

最新评论

推荐系统（三）Graph Embedding之LINE
不良人大帅: 写错了，第二阶近邻性，应该指的是不相邻的边
算法（二）二分法基础讲解
dream_aleaf: 您好，请问mid为什么是(low + high) / 2呀？
算法（一）排序算法总结
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
算法（三）数组之二分法
CSDN-Ada助手: 如何证明一个问题是 NP-Hard 或 NP-Complete?
算法（八）数学
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。