个性化推荐系统--样本选择与特征选择相关知识(8-3)

回忆一下,8-1中给出的实例,当时用了3个样本,3个特征来演示LR模型的工作原理。但是,可能会有疑问,为什么只有3个样本?在实际的项目中,可能会有非常多的样本,其中有些样本是可以用的,有些样本是不可以用的,到底哪些可以用,哪些不可以用。包括我们有很多的特征,依据什么规则来判断是否对最终的结果有效都是下面要介绍的内容。

下面首先看一下样本方面的知识。

在点击率预估过程中,需要的样本是带有label的,也就是点击或者未点击,这是大前提。也就是说,每个用户的每次刷新,我们都能对应上item是否被点击。这么多的样本都是我们训练时候的有效样本么?

当然不是!

下面首先看一下样本的选择规则。

一、样本选择规则

这里面主要包含两个因素,1. 采样比例; 2. 采样率。

1. 采样比例

 正负样本需要维持一个正常的比例,正常的比例需要符合产品的实际形式。比如说某个产品,用户三次到来就会产生一次购买,那么我们的正负样本就是1:2的比例。

当然,模型训练还有很多的采样规则,比如说在某些模型训练的时候,我们需要确保userid的样本达到平均水平,比如说最少要20个。这个时候,就需要做样本增强。对于该userid下的样本,我们需要给他一个特定的权重,来确保它虽然样本少,但是也能达到最低要求。

2. 采样率

当模型没有办法用所有的训练数据的时候,必须设定一定的采样率。常用的随机采样的方法就是其中的一种。

二、样本过滤规则

样本过滤规则有两个大方面:

1. 结合业务情况

比如在样本选取时,需要去除爬虫带来的<

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值