推荐系统（十七）推荐系统中的样本

最新推荐文章于 2022-04-20 11:07:19 发布

LightYoungLee

最新推荐文章于 2022-04-20 11:07:19 发布

阅读量1.1k

点赞数

分类专栏：推荐系统文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_37688445/article/details/121737353

版权

推荐系统专栏收录该内容

19 篇文章 20 订阅

订阅专栏

pairwise vs pointwise

pairwise构造样本对搜索更加友好，因为搜索关注更多的是item之间细微的差别，而pairwise正符合这种要求；pointwise对推荐更友好，因为推荐的item范围更广，用户更在意单个item质量是不是很好。

hard negative vs easy negative

做召回模型时，一个很重要的环节是负采样。因为线上系统中召回模块面对的是整个资源池，因而为了在离线时模拟线上环境，通常需要对整个资源池进行随机负采样，即easy negative，损失函数公式如下：

$recall\_loss = \frac{exp(v_u^Te_i)}{\sum_{k\in N} exp(v_u^Te_k)}$

其中N代表的是从整个资源池中选出的随机样本。但这样训练的召回模型精度不够，因为正样本（点击数据）和负样本（随机负采样）差异过大，导致模型学习到的信息比较浅显，因而需要加入一些hard negative来增加模型学习的难度。hard negative总体有两大类选法，曝光未点击和召回未曝光，而且每一类不同分段负样本的选择对最终召回模型的效果都会有很大的影响，这个需要视具体业务而定，这里给出添加hard negative后损失函数公式：

$recall\_loss = \alpha \cdot \frac{exp(v_u^Te_i)}{\sum_{k\in N} exp(v_u^Te_k)} + (1-\alpha)\cdot \frac{exp(v_u^Te_i)}{\sum_{m\in H} exp(v_u^Te_m)}$

其中 $\alpha$ 代表的是easy/hard negative的浓度配比，H代表的是hard negative的样本集合。

参考链接

pairwise vs pointwise

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
推荐系统（十七）推荐系统中的样本

推荐系统中构造样本方式
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。