负采样方式

目录

一、随机负采样

二、Real-Negative Subsampling

三、加权随机负采样

四、拒绝接受采样

五、Metropolis-Hastings ( MH ) 采样

六、吉布斯采样

七、蒙特卡洛采样

八、重要性采样(Importance Sampling)

九、有偏重要性采样

十、NCE采样

十一、混合负采样

十二、DFN模型:三类样本


推荐系统存在的数据问题:

1、训练数据跟线上数据分布不一致;

2、曝光未点击的item应该是偏正样本,而不是正样本or负样本;

3、数据稀疏问题,正负样本数量差距大;

4、长尾分布问题;

一、随机负采样

1、实现:在物料池中,随机选择负样本;

2、问题:头部效应很重,热门item有大量的正样本,而冷物品有大量负样本,难以均衡化;

3、改进方式:热门物品作正样本时,降采样;作负样本时,过采样;

二、Real-Negative Subsampling

1、实现:训练集中具有较高曝光频率的item的负样本三元组,以这个概率丢弃:

三、加权随机负采样

1、实现:根据广的曝光频次对item进行分组,将大于阈值的记为A_high, 小于阈值的为A_low, f(a)为item a的曝光频次,生成一个(0,1)之间的随机数p,若p小于P_l,则从A_low中使用均匀采样的方法得到一个item,否则从A_high中基于unigram distribution分布采样得到一个item。P_I的定义为:

四、拒绝接受采样

1、定义:均匀分布会使得一些低概率样本出现过多,所以可以通过拒绝部分样本的方式来获取所需分布。假设需要的分布为p(x),其他分布样本为q(x),二者关系为p(x) = c q(θ) α(x),为使得q(x) >= p(x),采样过程为:

五、Metropolis-Hastings ( MH ) 采样

1、定义:通过拒绝接受样本在计算过程中有大量计算是无用的。因此选取合适的分布 q 是十分必要的。但这通常都很难获得&#

  • 3
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值