ML学习分享系列(2)_计算广告小窥[中]

原作:面包包包包包包
修改:寒小阳 && 龙心尘
时间:2016年2月
出处:http://blog.csdn.net/Breada/article/details/50697030
http://blog.csdn.net/han_xiaoyang/article/details/50697074
http://blog.csdn.net/longxinchen_ml/article/details/50697105
声明:版权所有,转载请联系作者并注明出处

1. 引言

提笔写这篇博客,我的内心是惶恐的。原因很简单,作为一个资历尚浅的研究生,是没有资格对计算广告这样一个伟大的行业、领域和学科来评头论足的。之所以这么做,一是总结自己已掌握的知识,二是降低同学们的学习成本。本人能力有限,更缺乏实践经验,文章内容多为书籍和论文的读后感,若有不当或者错误之处,还望各位同学指出,我定悉心求教。在此,向编写《计算广告》的刘鹏和王超两位老师致谢,向各位paper作者致谢。

[关于ML学分计划]

  • 寒小阳龙心尘发起,一个互帮互助的机器学习知识共享平台。
  • 我们是一群对机器学习感兴趣的小伙伴,对于神奇的机器学习经常有“一探究竟”的冲动,却因为孤身一人学习的寂寞、亦或繁忙考试工作之余的小小拖延症,而没有持续这份对知识的渴求和热情。
  • 由于深感类似情况的小伙伴之多,我们希望建立一个“ML学分计划”——机器学习的学习和分享计划——来帮助我们一起更高效地学习、更集中地整理分享我们的知识和经验。因为我们也深信”证明自己真的透彻理解一个知识,最好的方法,是给一个不熟悉这个内容的人,讲清楚这个内容“。

[关于原作@面包包包包包包]

  • 海淀区明光村计算机职业技术学院,研二学生。
  • 关注计算广告点击率预估和竞价算法,关注机器学习和深度学习,初学者。
  • 机器学习QQ群:初学者373038809,行业同学和研究者472059892。

(上)(中)(下)全文目录

  1. 引言

  2. 广告=>互联网广告:“您好,了解一下”

  3. 互联网广告=>计算广告:指哪儿打哪儿!

  4. 计算广告四君子:谁在弄潮?

  5. 计算广告关键技术:这孙子怎么什么都知道?

  6. 广告系统架构:要啥自行车,这里有宝马。

  7. 手把手系列之教你搭建一个最小广告系统:mieSys


5. 计算广告关键技术:这孙子怎么什么都知道?

一句话解释关键技术:没声音,再好的戏也出不来。

广告作为一项商业活动,是需要资本来滋养的。作为整个产业链的金主,只有广告主花钱做广告,使资金流动起来,整个广告行业才能正常运转。所谓关键技术,就是那些能让广告主觉得“这钱花的值”,让媒体网站觉得“这钱挣的快”的技术。具体都有哪些呢?下面我们一一来表。

5.1 合约广告关键技术:受众定向

计算广告发展到合约广告阶段,媒体网站依靠受众定向技术给用户打标签,在实现了媒体网站广告位的时分复用的同时,还提高了广告主的投入产出比,极大的激发了广告主在互联网上做广告的积极性。因此,受众定向是合约广告中的关键技术。

我们知道,只要描述物体的维度足够高,那么世间万物都是独一无二的。在广告系统中,标签就是描述用户的维度。媒体网站为了精准的刻画用户,标签的种类和数量自然也不会少。为了更加直观地了解受众定向技术,我们从用户、上下文和广告三个方面讨论打标签的思路和一般方法。

  • 用户标签:主要用性别、年龄、收入、地理位置、教育程度和用户行为等标签来刻画用户,从而回答“你是谁”的问题。

  • 上下文标签:主要用网页的地域、主题和频道等标签来刻画用户当前所处的媒体网站环境,从而回答“你在看啥”的问题。

  • 广告标签:主要用广告主、广告创意、广告计划和广告关键词等标签来刻画广告的相关内容,将广告内容与用户和上下文进行匹配后,从而回答“你该看啥”的问题。

5.1.1 用户标签关键技术

对一个用户来说,性别是不会轻易变的,但是用户的喜好和兴趣却是时刻都在变化的。根据标签属性的变化频率,我们这里私自将用户标签分为静态和动态两类。静态标签主要指年龄、性别、地理位置、收入和教育程度等这种不变或者很长时间之内都不变的标签,行话叫“人口属性”;动态标签则是指用户的浏览、搜索和点击等能够反映用户短时喜好和兴趣的行为标签,行话叫“行为定向(BT:Behaviroal Targeting)”。下面我们针对静态和动态这两类标签分别讨论。

一句话解释静态标签和动态标签的关系:价格围绕价值上下波动。

  • 静态标签(人口属性)

《计算广告小窥[上]》中,我们曾简要地提到过一种受众定向的方法:

通过对点击日志的分析,媒体网站发现点击过女性护肤品的用户又点击过媒体网站上其他女性品牌。在“女性用户对女性品牌可能更感兴趣”的合理假设下,判断这些用户的性别为女,男性用户同理。

现在我们可以更加清楚的认识到,上述媒体网站所打的标签是静态标签中的“性别”,使用的是基于规则的方法,即:满足了某种条件,就是某种人。这种基于规则的方法简单并且易于实现,但也存在着致命的缺点:基于规则的方法对数据非常敏感,若数据本身存在噪音(如误点击),那么标签的品质也将大打折扣。这可如何是好?简单的不行,那就来点复杂的嘛——用机器学习模型来实现(自带音效:当当当当,当当~~)。

假设我们已经知道一部分用户的真实性别,那么就可以用机器学习中有监督的二分类模型来预测用户性别。首先,我们需要对原始数据进行清洗,合理地处理缺失值和奇异值,并划分训练集、交叉验证集和测试集;其次,要在业务的指导下做特征工程,利用统计或模型的方法构造特征,并进行特征选择和特征组合;然后,我们要选择合适的模型(如SVM等),设置合适的评价标准并进行模型的训练;最后,通过模型调参和模型融合,获得性别预测模型。

  • 动态标签(行为定向)

一句话解释行为定向:唐伯虎喜欢如花多一些,还是凤姐多一些?

“如果一定要比较一下,那唐伯虎是喜欢如花多一些,还是凤姐多一些?”这个看似荒谬的问题,正是行为定向要解决的。如果唐伯虎是异性恋,那他应该是喜欢凤姐多一些的,否则是如花。这也就告诉我们,在行为定向中,判断的标准至关重要。下面我们借助一个例子来分析该用户的动态标签究竟是什么。

有数据显示,某用户在过去的三个月时间中,点击广告的标签和次数如下表所示:

标准 单反爱好者 跑鞋爱好者 饮料爱好者 护肤品爱好者
点击 25 4 2 1

对上述数据进行分析,我们可以轻而易举的得到答案:该用户的标签应该是“单反爱好者”,因为他的点击行为集中在这个标签上。但是,这个答案是我们以用户的点击行为作为标准得来的,如果以用户的浏览和搜索行为做标准,答案也是“单反爱好者”吗?我们再来看一下相关数据。

标准 单反爱好者 跑鞋爱好者 饮料爱好者 护肤品爱好者
浏览 15 2 0 0
标准 单反爱好者 跑鞋爱好者 饮料爱好者 护肤品爱好者
搜索 7 16 5 3

是不是出问题了?以点击和浏览为标准,该用户标签应该是“单反爱好者”,但是以搜索为标准,标签应该是“跑鞋爱好者”。如果该用户的标签只能有一个,那该选哪一个呢?为了解决这个问题,我们从数学角度分析一下好了。嘿嘿,数学噢,前方高能预警!我会尽量让这个过程变得简单,大家跟上我的思路哈。

Step1. 泊松分布

一句话解释泊松分布:猜猜我在哪儿~~~

我们先来介绍下泊松分布。啊啊啊啊!一上来就是数学,我不听我不听我不听,泊松分布是什么鬼?咳咳,那,那就先不丢公式了,咱们看图解决问题好了,下面是泊松分布绘出的曲线图,实际工程中要解决的问题就是找到图中的最高点,如下图:

泊松分布概率图

这个肉眼找最高点的过程不要太简单了!!!我们可以看到:图中最高点的纵坐标大约为0.36,而对应的横坐标是1。OK,你就算会用泊松分布了哦!那个,感兴趣的同学们,可以一起来看看对应上图的泊松分布的公式。

pt(h)=λhteλth!

公式相对于图,是有那么点点复杂啦。不过,我们只需知道 λt 影响泊松分布的形状,一个 λt 对应一个泊松分布就可以了。这个场景下要做的事情就是找到对应泊松分布图像的最高点。

Step2. 一个结论

一句话解释这个结论:一个萝卜一个坑。

我们先说一个结论:在一个标准下,用户在所有标签上的概率分布是满足泊松分布的。对于这个结论,有兴趣的同学可以参见Stanford 《Introduction to Computational Advertising》讲义Page-81,我们在这里就直接拿来用了。而所谓“标准”,就对应泊松分布公式中的 λt ,在我们这里的场景下与用户行为有关。我们有点击、浏览和搜索三种行为,也就对应三个 λt ,绘出三条曲线如下。(此图为示例数据上绘出的图像,非实际数据):

三种标准的概率分布

我们可以清楚的看到,在以“点击”和“浏览”为标准时,图像最高点都出现在5号标签,用户标签应该是标签5;以“搜索”为标准时,图像最高点出现在6号标签,用户标签应该是标签6,标签发生了冲突。接下来,我们就要想办法用数学方法去解决标签冲突的问题,思路是这样的:先选出一个最佳标准,然后以此标准画正态分布,最后找最高点对应的标签即可。

Step3. 最佳标准

一句话解释最佳标准:盲人摸象

“盲人摸象”比喻以偏概全,现在我们想要知道大象全貌,把每个人摸到的拼起来便是了。在广告系统中,搜索、点击和浏览三种行为数据都只能从一个侧面反映用户的行为,要想完整的刻画一个用户,我们虚要将这三种行为融合起来之后找到一个最佳标准。提到融合,较为常用的方法是投票,我们可以写出下列公式:

λt=i=1nωiti where t()

简单解释一下: ti 是标准,分别代表了搜索、点击和浏览行为; ωi 是标准的权重,即该标准对于完整描述用户行为的贡献。我们用机器学习中的广义线性模型对该问题进行建模,模型训练完成后可得各标准的权重 ωi ,从而预测出最佳标准 λt

Step4. 最终求解

通过广义线性模型,我们找到了最佳标准 λt 。现在,我们根据该 λt 画出相应泊松分布,如下图:

最佳标准泊松分布

回顾Step2中的结论:在一个标准下,用户在所有标签上的概率分布是满足泊松分布的。现在最佳标准下的泊松分布我们已经画了出来,该用户在所有标签中的概率分布也应该符合这个分布的。还是老步骤,我们找最高点所对应的标签,即标签5,所以该用户的动态标签是标签5,问题完美解决。

在学习了泊松分布和机器学习之后,媒体网站终于完成了用户标签的工作,看着那圆圆的饼图,流下了激动了泪水,哽咽着说“嗯..终于..终于可以卖钱了..”没错,流量可以变现了,互联网广告一脚踏进合约广告时代。但是仅仅知道“你是谁”,粒度还是太粗,卖不了好价钱。“要是知道你正在干嘛就好了”媒体网站嘴里嘟囔着,突然脑海中灵光一闪,大叫一声:(图片来自网络)

我的天呐

5.1.2 上下文标签关键技术

一句话解释上下文标签的做法:吃的是URL,挤的是标签。

“我当然知道他在干嘛!我有日志啊!我有他正在访问页面的URL!啊哈哈哈哈哈!”有了用户标签的经验,媒体网站处理起上下文标签来就显得轻车熟路了,总共分两步:第一,根据用户当前页面的URL,抓取用户当前浏览的页面内容;第二,提取页面内容的关键词,作为当前页面的标签。

通过URL获得页面内容是一个典型的爬虫应用,与搜索引擎的爬虫不同的是,广告系统的爬虫只抓取用户请求的页面,而非全网页面。鉴于上述原因,广告系统使用“半在线抓取系统”,该系统有三个特点。第一,仅对用户发起请求的页面进行抓取,节省了时间和成本;第二,将{URL:标签}存储下来,当其他用户发起相同页面请求时,直接返回标签结果,避免重复抓取。第三,考虑到某些频道页面内容可能会更新(例如”旧浪体育”),还可设置合适时间,周期地更新已存页面的标签。

在抓取到页面之后,如何提取标签也有几种常见方法。最简单的是利用规则,在URL层面上人为做映射,例如sports.oldna.com对应的页面标签就是”旧浪体育”。若用户是通过搜索发起的页面访问,还可以根据搜索词作为页面标签。当然,在广告系统使用范围较广的方法还是机器学习中的主题模型,得到页面内容在几个主题上的分布,从而判断页面标签。例如,sports.oldna.com页面内容在”体育”、”财经”和”游戏”三个主题上的概率分布分别为:

体育 财经 游戏
0.85 0.10 0.05

我们可以很容易的看出sports.oldna.com的标签是”体育”。这里值得注意的是,如果想要加工出”体育”、”财经”和”游戏”这种可解释的标签,通常需要采用有监督的主题模型。

能用的数据都用了,能打的标签也都打了,知道了“你是谁”和“你在看什么”之后,媒体网站这才感觉踏实了些。下面的工作就简单了许多,把标签卖给广告主就可以了,也算是一劳永逸,深藏功与名。至于用户会看到什么,那是广告主的地界,就不管媒体网站什么事儿了。

5.1.3 广告标签关键技术

普通的广告标签就是广告本身的属性,如所属广告主、广告大小、广告类别和目标人群等,当广告和用户两两匹配时,该广告就会展示给用户。但是,这里我们想说的广告标签是在程序化交易中的“个性化标签”。在《计算广告小窥[上]》中我们提到:“程序化交易是广告主为实现个性化营销举行的海天盛筵。”品尝过个性化营销的甜头之后,广告主就想:“既然这些人是回头客,那各方面表现和这些回头客很像的人,有没有可能也是我的回头客呢?世界那么大,我得去找找这种人。”

  • look-alike

一句话解释look-alike:比葫芦画瓢。

这个技术的名字还挺洋气呢,英文的,“看起来像”?说白了就是比葫芦画瓢,找到那些看起来像回头客的新用户,行话叫“新客推荐”。这里一定要注意了,千万不能翻译成“看起来像”,那样显得逼格不够,就叫英文的,look-alike~

关于look-alike的具体实现,市面上没有统一的做法,毕竟我们正在经历。这样一来我的心也放下了,因为即便我下面都是胡扯也不一定是错的。

look-alike的核心是按着回头客的样子去找新用户。那简单呀,看看回头客的标签是什么样子,对着去找相同的不就行了?没错,这算一种方法,并且是一种基于规则的方法。但是直觉告诉我们这样做粒度太粗,没有充分考虑到广告主因素,同时经验也告诉我们,基于规则的不如基于模型的效果好,所以我们还可以得出一个基于模型的做法:将某用户是否是潜在用户建模成一个机器学习中的二分类问题,利用回头客数据训练模型,并在新用户上做预测,是就是1不是就是0,也挺好理解的。

受众定向关键技术我们就介绍到这里了,现在我们来回顾一下。为了更加精准的刻画用户,我们从用户标签、上下文标签和广告标签三个方面来介绍受众定向。虽说角度不同,但总的说来,不外乎两种方法:基于规则和基于模型。在受众定向技术的支持下,互联网广告进入合约广告时代。在经见了在线分配的大坑之后,媒体网站发现合约不可保,便使用竞价方式售卖流量,指定广告主。那在竞价广告中,又有什么关键技术呢?请看下一小节:竞价广告关键技术:点击率预估。

5.2 竞价广告关键技术:点击率预估

郭德碗:聊(bi)了(bi)了这么久,想必衣食父母也都累了。
于 兼:是有点儿。
郭德碗:能坚持看到这儿的人不多。
于 兼:东西太难。
郭德碗:那就歇了吧,《计算广告小窥》到此结束!
于 兼:给我回来!像话嘛这个!
郭德碗:还想怎么着啊?
于 兼:说好的点击率预估呢?大伙都冲这个来的。
郭德碗:真有冲这个来的?
(有!)
郭德碗:怎么不提钱跟我说呢?
(吁~)
郭德碗:好了,玩笑归玩笑,驴鞭归于兼,下面呀,我..
于 兼:您等会儿,那玩意儿归我干嘛呀?
郭德碗:嘿嘿嘿。
(吁~)
郭德碗:你们都懂?
(吁~)
郭德碗:仁者见仁,污者见污哟。
(下去吧~)

我知道很多同学是冲着点击率预估来的,所以不能让你们白来不是,免费送您一小段儿,别跟我提钱哈哈。等最后聊到最小广告系统,帮我贡献几次点击就行,我也好收集一些高质量数据,训练模型自己玩儿。言归正传,下面我们将从“是什么”、“为什么”和“怎样做”三方面来介绍点击率预估。

5.2.1 点击率预估是什么
  • 点击率

一句话解释点击率:0.1%

既然聊到点击率预估,那我们先来看看什么叫点击率。点击率这个概念我们是第一次提起,但其实我们早就知道它了。我们在《计算广告小窥[上]》曾经提到:

“自从广告上了互联网,广告的面貌就焕然一新。造成行业巨变的原因,是因为互联网广告的效果可以被衡量。”

如果接着往下说,以什么标准来衡量呢?没错,最常用的衡量标准就是点击率。点击率(CTR:Click-Through Rate)是指的是媒体网站上某个广告的点击量/展示量。之所以使用点击率来衡量广告效果是有原因的,先来看分母:分母是某广告的总展示量。在《计算广告小窥[上]》中我们曰过,广告展示机会是广告主通过竞价获得的,展示机会越多,意味着广告主的出价越高,所以总展示量可以用来表征广告主的广告投入。再来看分子:分子是总点击量,而点击行为代表了用户的注意力,说明用户渴望进一步了解广告内容。因此点击率越高,意味着广告主在相同投入的情况下,收获了更多的用户注意力,完美诠释了广告主做广告的初衷,所以点击率是广告主和媒体网站常用来衡量广告效果的标准。我听过一个数字,广告平均点击率为千分之一,也就是每展示1000次广告才会收获1次点击,所以点击率预估中数据都是很稀疏的。

  • 点击率预估

一句话解释点击率预估:80%

了解了点击率,我们再来看看什么叫点击率预估。从字面上理解,点击率预估是预测媒体网站上某个广告的点击量/展示量,然而这样理解并不是很准确,我先给出我的理解:点击率预估,是指预测特定用户点击特定广告的概率,例如小明点击某信二手车广告的概率是80%。

为什么对媒体网站广告点击率(0.1%)的预测,会变成了对用户点击某广告概率(80%)的预测呢,接着往下看啦。

5.2.2 为什么要做点击率预估

一句话解释为什么要做点击率预估:钱。

在竞价广告阶段,广告主与媒体网站之间以按点击付费(CPC)的方式结算,因此我们可以用下列公式来表征媒体网站在某次广告活动中的收入:

媒体网站收入 = (点击率 * 展示量) * 单次点击价格 = 点击量 * 单次点击价格

我们知道,展示量单次点击价格这两部分都是广告主参与竞价后才能决定的,与媒体网站无关,所以媒体网站的收入就与点击率直接挂钩。在收益最大化的驱使下,媒体网站有提高点击率的动力。点击率的定义是点击量/展示量展示量又是广告主通过竞价决定的,因此媒体网站只能想方设法提高点击量

对于媒体网站而言,他所拥有的资源就是页面上几个固定的广告位和海量的用户。为了提高点击量,一种简单明了的想法就是让展示的广告尽可能多的被点击,即“指哪儿打哪儿”。为了实现这个理想,亟需解决两个问题:首先需要知道用户感兴趣的广告有哪些,其次需要让用户尽可能多的点击这些广告。

第一个问题叫做“广告检索”,是指媒体网站根据用户的定向标签或其他方式检索出符合用户口味的广告候选集合。这部分内容是搜索引擎的核心,在这里我们就不展开讨论了。我们来看第二个问题,假设我们已经得到了一个符合用户口味的广告候选集合,如何能让用户更多的点击呢?很简单,把用户最可能点击的广告放在最显眼的地方,为了定量描述用户最可能点击的广告,这便引出了点击率预估的问题。因此我们说,点击率预估并不是来预估媒体网站上点击量/展示量,而是预测某个特定用户点击某个特定广告的概率。OK,那预估完干什么呢?刚才不是说了嘛,把最可能点击的广告放在最显眼的地方呀!

  • 最显眼的地方

一句话解释最显眼的地方:你也是柳岩的球迷?

为了较为直观地描述用户的注意力分布,我找了一张LinkdIn的用户注意力热力分布图。(图片来自网络)

热力分布图

图中,颜色越红代表用户注意力越集中。可以看到,用户最关注的是页面的上半部分,其次是右半部分,最后是下半部分。这种注意力分布基本我们日常的浏览习惯,即如果能在页面靠前位置找到我们所需的信息,一般就不会再关注页面其他地方。了解了注意力分布,我们来看一下某度搜索页面上的广告位分布。

百度

某度广告位主要分布在北区、东区和南区三部分,以LinkedIn页面中的用户注意力分布来推测,用户在某度页面上注意力分布从高到底分别是北区、东区和南区。假设某度共有10个广告位,那么将用户最可能点击的10个广告按照点击概率由高到低顺序分别排在北区、东区和南区。然后还干嘛?没有了,万事俱备,只欠点击。

不知道您听明白了没,我来帮您捋捋。为了提高媒体网站的收益,我们结合业务场景不断简化问题,从提高媒体网站点击率入手,到提高总点击量,再到获得广告候选集合,预测出了用户点击广告的概率。仅仅预测点击概率媒体网站还赚不着钱,因此媒体网站根据点击概率在页面广告位上对广告进行排序。所以为什么要做点击率预估呢?都是为了钱!都是为了钱!都是为了钱!

5.2.3 点击率预估怎么做

一句话解释点击率预估怎么做:使尽浑身解数,只为更懂你。

自计算广告学诞生以来,点击率预估就是一个在学术界和工业界被广泛研究和实践的课题。剥去种种具体场景,点击率预估的本质其实还是一个机器学习中的二分类问题。一般来讲,媒体网站点击数据的数学分布是非线性的。为了拟合这种非线性关系,学术界侧重于模型的研究,工业界侧重于特征的构造,双方优势互补,已取得了相当丰硕的成果。下面我们将先介绍展示广告和搜索广告这两种互联网广告的主要形式,然后阐述二者在点击率预估问题上的不同之处,最后介绍一些点击率预估的方法。

  • 展示广告

展示广告(Display Advertising)是一种以“图片+文字”的方式进行广告宣传的互联网广告形式。从广告触发方式来看,展示广告是媒体网站根据用户历史行为所做的推荐,对用户而言广告是被动接收的,如下图。

展示广告

  • 搜索广告

搜索广告(Sponsored Search)是一种以“标题+超链接”的方式进行广告宣传的互联网广告形式。从广告触发方式来看,搜索广告是媒体网站针对用户当前检索所做的广告匹配,广告是用户主动发起的,如下图。

搜索广告

根据上面我们对展示和搜索广告的描述,我们可以对两种广告形式的点击率预估有一个浅显并直观的认识:展示广告的点击率预估可以看作是一个推荐问题,根据历史记录推测用户对哪些广告更感兴趣;搜索广告的点击率预估可以看作是一个检索问题,根据用户当前的查询来做广告匹配。前者推荐后者检索,问题性质的不同也决定了点击率预估所采用方式的不同。

  • 点击率预估方法

有关展示广告搜索广告的实现算法和应用细节都是各家互联网公司的商业机密,由于场景的不同,各家对点击率的预估也是八仙过海各显神通。作为一个没有实战经验的小屁孩儿,想要较为流畅地阐述这个话题,还是力不从心,毕竟眼界太窄太年轻。为了保证文章结构的完整,这部分还必须要写,那么我就抛开业务场景,仅从机器学习角度来和大家聊一聊我所知道的内容。写的不好,还请各路大神多多指教,如有不当指出,请严厉指出,我定感激不尽!

上面我们提到过,从用户浏览网页到广告获得展示,要经过三个阶段:用户定向、广告检索和广告排序。用户定向和广告检索就不多说了,最终在广告库中可以找到符合你口味的广告,即“万里挑十”。在广告排序阶段,需要将这十个广告位放置在页面上,通常做法有两种,一个是基于规则,一个是基于机器学习。我们这里从机器学习的角度入手,但是各位千万不要忽视了规则的能力。聊到机器学习,主要就是两方面,特征和模型。下面我就根据我所了解的内容,重点介绍一下线性模型+海量特征的方法,然后简单介绍一下点击率预估的发展。

  • <1>线性模型 + 海量特征

用于点击率预估的数据主要是日志数据,一般会有点击行为(点击为1,没点为0)、广告信息(广告位、广告主id、广告标签和广告描述等)、用户信息(用户id和用户标签等)、上下文信息和时间戳等。有了这些原始数据之后,需要对数据进行清洗,然后利用统计或模型的方法构造特征,进而做特征选择和特征组合,最终特征的数量级大约在10亿-100亿维。完成了特征工作之后,在模型方面,较为经典的点击率预估模型是线性模型Logistic Regression,由于LR在通过sigmoid之前是一个[0,1]之间的浮点数,利用LR的特点,我们可以将这个浮点数作为用户点击该广告的概率,把广告按照这个概率从高到低放置在相应广告位上,就完成了广告排序。

为什么要造出维度这么高的特征向量呢?我的理解是这样的。对于点击数据来说,点击行为与其他特征之间的关系是非线性的,为了拟合这种非线性关系,我们依然可以从特征和模型两方面入手。通常来说,非线性模型的效果要更好一些,但是效率太低,不适合工业界的现实场景,所以快速简单的线性模型就成为了模型的首选。那线性模型如何拟合非线性关系呢?这就需要在特征层面做文章,利用特征工程的方法来构造出高阶特征,同样可以实现非线性。这个思路理解起来还是不难的,如下面两式对比:

y1=w1x1+w3
  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值