召回模型评估以及训练数据的采样

a flying bird

已于 2022-07-27 06:42:04 修改

阅读量723

点赞数

分类专栏：推荐系统文章标签：推荐算法

于 2021-05-27 22:49:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37870649/article/details/117317776

版权

推荐系统专栏收录该内容

39 篇文章 2 订阅

订阅专栏

多路召回中，如何评估单路模型的召回能力？

1. 看这一路召回的物品中曝光出去的物品在这一次曝光物品的占比：模型的分发能力。

2.端内总体的数据指标：ctr,cvr

误区：仅仅看单路召回的指标，如单路的ctr，为什么错误：可能这一路把其他路的分发挤掉了。（例外情况,先上A路，然后A路下掉，上B路。这时可以拿A路和B路对比。或者进行AB测试。）

不同召回角色不同，要根据目标进行评判。比如负责多样性的，如果多样性好，只要CTR没有掉，就可以。CTR上来更好。

采样：如果线上比例1：9，很多地方一般不用1：9，为什么不用1：9，保持样本分布一致，不好嘛？答： 1. 我们目的是要把好的挑选出来，所以比例上稍调整一些，使正样本更容易选择出来（负样本太多，学习不出来）。2. 线上分布也是会变化的，使用采样，可以追求一定的泛化性。。而是用1：4或者1：5（不同场景有1：4--1：20，一般取1：4--1：10以内）。采样的比例一般都是拍脑袋的。

采样的比例一般1：4到1：20之间，一般以1：10以内比较好。
原因：比如广告，点击比可能是1：100，如果采样按照1：100，则很难学习到正样本的规律。

采样一般采多少条好？采用一般不是按照条采样的，是按照时间采样的。

采样的时候，一般是从曝光出去的物品进行采样。也可以从全库进行采样。

采样的时候，应该按照类别分层进行采样。曝光多的采样几条，曝光少的采样几条，可以抑制长尾问题。

随机采样，按照一定的比例采样，只保留点击前的负例（后面的可能没看到）

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
召回模型评估以及训练数据的采样

多路召回中，如何评估单路模型的召回能力？1. 看这一路召回的物品中曝光出去的物品在这一次曝光物品的占比：模型的分发能力。2.端内总体的数据指标：ctr,cvr误区：仅仅看单路召回的指标，如单路的ctr，为什么错误：可能这一路把其他路的分发挤掉了。（例外情况,先上A路，然后A路下掉，上B路。这时可以拿A路和B路对比。或者进行AB测试。）不同召回角色不同，要根据目标进行评判。比如负责多样性的，如果多样性好，只要CTR没有掉，就可以。CTR上来更好。采样：如果线上比例1：9，很多地方一般.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。