![c6ff3d2ebb7b06cbdfcd53f70d8a7358.png](https://img-blog.csdnimg.cn/img_convert/c6ff3d2ebb7b06cbdfcd53f70d8a7358.png)
ctr校准,是说在ctr模型预估值的基础之上进行微调,使得预估值更准的方法。
引起ctr预估不准的原因大致有这样几种:
1、新素材曝光机会少,导致样本得不到充分训练
2、有些模型因素导致预估有偏,比如svm等算法,会使ctr预估值低部偏低,高部偏高
3、正负样本分布非常不平衡,据说会导致预估偏低(这个还没有自己验证)
因此需要对模型进行修正
修正的思路有几种:
1、基于统计学的ctr预估值的置信度做调整
2、基于统计量分布概率密度的采样
3、给正负样本分配不同的权重
4、在修正时保证序列的一致性
几种常见的方案:
1、贝叶斯平滑
该方法主要针对曝光量级小的素材进行调整,其主要原理是说样本的预估值,会随着曝光数的增加而变得更加置信。比如两个素材同样是1%的点击率,但是一个曝光100,一个曝光是10000,所以置信度是不一样的。我的个人理解是,好像不太适用于ctr建模场景下的修正
2、威尔逊系数
该方法也考虑了预估样本的量级带来的不同置信度的影响,从而构造了一个统计量,感觉和ucb算法思想类似。
3、采样
通过正负采样的方式,改变样本的分布,从而获得更好的训练效果。然后在预估值的基础上,利用采样率修正模型的bias。该方法主要解决样本分布不均衡问题,facebook使用了这个方法
4、改变正负样本的权重
google采用了这个方法,但是据说在ftrl下破坏了样本的随机性,因而效果不好。具体的原理我还没有来的及看
5、保序回归
该方法的主要思想是,修正前后的两个ctr值的顺序需要保持一致,因为我们训练ctr模型时用到auc指标评价模型的排序能力,也就是所说的保序。保序回归的意义在于我们需要在不降低模型排序能力的前提下,对ctr值进行更精确的预估。