目录
五、Metropolis-Hastings ( MH ) 采样
推荐系统存在的数据问题:
1、训练数据跟线上数据分布不一致;
2、曝光未点击的item应该是偏正样本,而不是正样本or负样本;
3、数据稀疏问题,正负样本数量差距大;
4、长尾分布问题;
一、随机负采样
1、实现:在物料池中,随机选择负样本;
2、问题:头部效应很重,热门item有大量的正样本,而冷物品有大量负样本,难以均衡化;
3、改进方式:热门物品作正样本时,降采样;作负样本时,过采样;
二、Real-Negative Subsampling
1、实现:训练集中具有较高曝光频率的item的负样本三元组,以这个概率丢弃:
三、加权随机负采样
1、实现:根据广的曝光频次对item进行分组,将大于阈值的记为A_high, 小于阈值的为A_low, f(a)为item a的曝光频次,生成一个(0,1)之间的随机数p,若p小于P_l,则从A_low中使用均匀采样的方法得到一个item,否则从A_high中基于unigram distribution分布采样得到一个item。P_I的定义为:
四、拒绝接受采样
1、定义:均匀分布会使得一些低概率样本出现过多,所以可以通过拒绝部分样本的方式来获取所需分布。假设需要的分布为p(x),其他分布样本为q(x),二者关系为p(x) = c q(θ) α(x),为使得q(x) >= p(x),采样过程为:
五、Metropolis-Hastings ( MH ) 采样
1、定义:通过拒绝接受样本在计算过程中有大量计算是无用的。因此选取合适的分布 q 是十分必要的。但这通常都很难获得&#