广告点击率的贝叶斯平滑
声明:
1)该博文是Yahoo专家所无私奉献的论文资料整理的。具体引用的资料请看参考文献。具体的版本声明也参考原文献
2)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应,更有些部分本来就是直接从其他博客复制过来的。如果某部分不小心侵犯了大家的利益,还望海涵,并联系老衲删除或修改,直到相关人士满意为止。
3)本人才疏学浅,整理总结的时候难免出错,还望各位前辈不吝指正,谢谢。
4)阅读本文需要机器学习、统计学习理论等等基础(如果没有也没关系了,没有就看看,当做跟同学们吹牛的本钱)。
5)本人手上有word版的和pdf版的,有必要的话可以上传到csdn供各位下载
一.点击率的贝叶斯平滑
预估互联网广告的点击率一个重要的技术手段是logistic regression模型,这个模型非常依赖特征的设计。每个广告的反馈ctr作为特征能极大地提升预估的准确性,所以每个广告的反馈ctr非常重要。
目前用得比较多的获取反馈ctr的方式是直接计算每个广告的历史ctr,这样的问题就是当该广告投放量比较少的时候(如新广告),历史ctr与实际ctr相差很大。如一个广告投放了100次,有2次点击,那么ctr就是2%,但是当这个广告投放量到了1000次的时候,点击只有10次,点击率是1%,这里就相差了一倍了。产生这种问题的的原因是投放量太少,数据有偏,所以如果每个广告在开始投放前就有了默认的一个展示数和点击数,即分子分母都加上一个比