关于点击率模型，你知道这三点就够了

最新推荐文章于 2022-09-20 09:41:37 发布

oucpowerman

最新推荐文章于 2022-09-20 09:41:37 发布

阅读量1.4k

点赞数

分类专栏：推荐系统

本文链接：https://blog.csdn.net/oucpowerman/article/details/50459285

版权

本文探讨了点击率模型的重要性，指出模型能综合考虑多种因素，解决特征独立性问题。介绍了模型建立的必要性，以及如何通过特征工程和非线性模型提升模型效果。评估模型时，AUC是重要指标。最后，讨论了模型演进趋势，如FM、GBDT和DNN在特征发现和融合中的应用，以及优化算法的BSP向SSP转变。

摘要由CSDN通过智能技术生成

说到计算广告，或者个性化推荐，甚至一般的互联网产品，无论是运营、产品还是技术，最为关注的指标，就是点击率。业界也经常流传着一些故事，某某科学家通过建立更好的点击率预测模型，为公司带来了上亿的增量收入。点击率这样一个简单直接的统计量，为什么要用复杂的数学模型来刻画呢？这样的模型又是如何建立与评估的呢？我们这一期就来谈谈这个问题。

一、为什么要建立一个点击率模型？

无论是人工运营还是机器决策，我们都希望对某条广告或内容可能的点击率有一个预判，以便判断哪些条目应该被放在更重要的位置上。这件事儿看起来并不难，比如说我有十条内容，在历史上呈现出来的点击率各个不同，那么只需要根据历史点击率的统计做决策即可，似乎并没有什么困难。

然并卵。直接统计历史点击率的方法，虽然简单易操作，却会碰到一个非常棘手的问题。首先，大家要建立一个概念：不考虑位置、时间等一系列环境因素，绝对的点击率水平是没有什么太大意义的。比方说，下面的一个广告，分别被放在图中的两个位置上，统计得到前者的点击率是2%，后者的点击率是1%，究竟哪个广告好一些呢？其实我们得不出任何结论。

于是，聪明的运营想到一个办法，干脆我在不同的位置上分别统计点击率，然后分别排序。这个思路从道理上来说无懈可击，相当于直接求解联合分布；不过，其实用价值并不高：在每个位置上分别统计，大多数广告或内容条目的数据都太少，比如说100次展示，产生了一次点击，这难道能得出1%点击率的结论么？

那能不能再换一个思路，找到一些影响点击率的一些关健因素，对这些因素分别统计？这实际上已经产生了“特征”这样的建模思路了。比如说，广告位是一个因素，广告本身是一个因素，用户的性别是一个因素，在每个因素上分别统计点击率，从数据充分性上是可行的。不过这又产生了一个新的问题：我知道了男性用户的平均点击率、广告位S平均点击率、某广告A的平均点击率，那么如何评估某男性用户在广告位S上看到广告A的点击率呢？直觉的方法，是求上面三个点击率的几何平均。不过这里面有一个隐含的假设：即这三个因素是相互独立的。然而当特征多起来以后，这样的独立性假设是很难保证的。

特征之间独立性，经常对我们的结论影响很大。比如说，中国的癌症发病率上升，到底是“中国”这个因素的原因呢？还是“平均寿命”这个因素的原因呢？显然这两个因素有一些相关性，因此简单的分别统计，往往也是行不通的。

那么怎么办呢？这就要统计学家和计算机科学家出马，建立一个综合考虑各种特征，并根据历史数据调整出来的点击率模型，这个模型既要考虑各种特征的相关性，又要解决每个特征数据充分性的问题，并且还要能在大量的数据上自动训练优化。这就是点击率模型的意义，这是一项伟大的、光荣的、正确的、有着极大实用价值和战略意义的互联网+和大数据时代的重要工作。那位说了，有必要抬得这么高么？当然有必要！因为这门手艺我也粗通一点儿，不吹哪行。

二、怎样建立一个点击率模型？