CTR预估中的贝叶斯平滑方法（一）原理及实验介绍

最新推荐文章于 2023-08-08 00:57:42 发布

洞之蝉

最新推荐文章于 2023-08-08 00:57:42 发布

阅读量476

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

57 篇文章 4 订阅

订阅专栏

转自:https://www.cnblogs.com/bentuwuying/p/6389222.html

1. 背景介绍

广告形式：

互联网广告可以分为以下三种：

1）展示广告（display ad）

2）搜索广告（sponsored search ad）

3）上下文广告（contextual ad）

竞价模式：

对于在线广告，主要有以下几种竞价模式：

1）pay-per-impression（按展示付费）：广告商按照广告被展示的次数付费，这是一种最普遍的竞价模型。缺点在于没有考虑投放广告的效果。

2）pay-per-action（按行为付费）：只有在广告产生了销售或者类似的一些转化时，广告商才付费。缺点在于追踪用户的交易行为相对比较困难。

3）pay-per-click（按用户点击付费）：根据用户是否会点击广告来付费。这时候就需要对广告的点击率（CTR）进行精确的预估。

遇到的困难：

由于数据的稀疏性，对广告进行CTR预估是比较具有挑战性的，预估出来的CTR的可靠性不高，且具有较大的方差。主要有以下两类场景：

1）当广告的展示次数较少的时候，对其直接进行CTR的统计计算会导致一个偏高的结果。比如某个广告只展示了1次，被点击了1次，则纯粹的统计CTR=1.0，这显然是过分高估了。

2）当广告的展示次数很大，但点击次数很少或几乎没有的时候，对其直接进行CTR的统计计算会导致一个偏低的结果。比如某个广告没有被点击过，则纯粹的统计CTR=0.0，这显然是过分低估了。

2. 数据的层级结构

在许多场景下，数据是很自然地存在层级结构，或者可以通过数据的聚类的方式得到层级结构的。如下图所示，是雅虎网站的网页层级结构示意图：

我们假设事件的发生并不是相互独立的，相反，在层级结构中相对比较靠近的两个事件的相关性要大于距离较远的两个事件，它们之间拥有很多共通之处。于是，我们便可以利用“相似”事件的信息来丰富某个我们感兴趣的事件（这个事件本事的发生的次数比较少）。具体到我们现有的场景下，可以利用与我们需要预估的事件（比如query-ad pair，或者page-ad pair）的“相似”事件的信息来帮助我们来做出预估计算。

假设有相同account下的N个ad，以及所在的page，我们感兴趣的是page-ad pair的CTR，于是我们可以利用贝叶斯的方法来结合（1）这个ad本身的信息，以及（2）该page下与这个ad来自相同account的其它ad的信息。我们观测到的点击信息为，这些点击信息源自各个ad的隐含CTR信息，点击信息服从二项分布。而隐含的每个ad的CTR，可以看做是来自于它们相同的account的公有信息，其服从贝塔分布。于是乎，每个ad的隐含CTR值，不仅与观测到的展示点击数据有关，还与其所属的account的整体信息有关，即与这对超参数有关。我们可以利用二项分布和贝塔分布的共轭特性，计算所有ad所属的相同account的似然函数，然后利用最大似然估计（MLE）来计算超参数。当有了的估计值后，我们便可以得到每个ad的后验估计：。这个后验估计值可以作为一个平滑后的CTR值，它要比单纯地统计CTR拥有更小的方差，更加稳定。