被推荐广告轰炸了N遍,竟然不知道原理:机器学习算法与其自动化

在亲戚、朋友眼中,你是这样的:

640?wx_fmt=jpeg


在推荐广告眼中,你是这样的:

640?wx_fmt=png

640?wx_fmt=jpeg


一、推荐广告的基本原理:点击广告的概率

先描述一下推荐广告的过程:你看到被推荐广告,这叫曝光(impression);如果有兴趣,会点击(click)推荐广告进去看看,术语叫做到达落地页,就是可以让你花钱的地方;你在了解了商品或者服务后,被说服了,下单购买,完成订单,这时的专业术语叫产生转化(conversion),这是一次成功的推荐广告。可是有那么多信息,怎么知道看到的信息一定是你感兴趣的?这个不用担心,如果你的用户信息被别人掌握的越全面,恭喜你越容易被广告惦记。自从有了信息推送,在找你需要的信息的同时,被预测为你感兴趣的广告,也在积极地找你。

为了尽量减少白白推荐的次数。我们需要想尽一切办法让浏览者点击,也就是增加点击广告的概率。对广告投放方来说,点击率是条件概率,我们复习一下概率的公式:

640?wx_fmt=png


概率公式,可以表示为:

Pro(click=yes | ad, page, user, time, region……)

条件是广告ad,流量page,用户user,时间time,区域region。

以百度搜索为例,展现部分和描述客户的要素、在百度搜索了那些词、通过百度搜索浏览了哪些网页相关。而展现广告被点击的概率是一个从到1之间的连续值,而真实情况下,点击的概率取离散值或者1。这里搜索的厂商在这里的业务和技术就类似了,无论是谷歌的广告还是Facebook的广告。


640?wx_fmt=jpeg


由此可知,点击通过率成为核心概念,

点击通过率(Click-through rate,CTR)=点击数/展现,就是点击广告并到达投放广告人的指定页面的数量,除以广告总的展示量。

如果我有一块广告位,有N个品牌厂商想来投放广告,一定选那个点击每一次的价格和点击率高的,以及广告出价最高的,这样拥有广告位的人才能赚的更多。这就需要对每个品牌厂商,也就投放广告的人的不同指标进行排序,当拥有多个广告位的时候,点击通过率的预估,一般会作为排序的基准,比如在搜索引擎广告系统里,当用户搜索健身服务哪家好,人工智能培训哪家机构好,类似这种带有商业价值的搜索词(query)的时候,系统大体上会执行以下顺序的步骤:

1.获取与用户搜索词相关的广告的集合。

2.业务规则(marketing rule)和相关性过滤(filtering)。

关键词推荐的逻辑包括候选词源触发、 相关性过滤(filtering)、排序模型排序(ranking),以及根据规则进行调整。比如‘黄赌毒’结果必须过滤。


640?wx_fmt=png

3.根据拍卖机制和点击通过率排序。当用户搜索后,匹配和搜索词相关的广告,结合每个广告的点击通过率和广告出价对广告进行排序。

4.最终展出广告。

在关键词选择方面,一般的搜索厂商都有成熟的关键从工具。

不过从用户的角度,未必想被广告商找到。所以会有人提出,这是一个要保护隐私的问题。比如犹豫着是否要进行一项消费。搜索了理想的商品价格太贵,并不能承受。可买可不买,算了。结果,之前的搜索行为暴露了意图,在接下来的几天里,不断的被推送各种广告,也是非常惹人讨厌的。

如果不使用点击通过率排序这个方法,只根据广告相关性进行投放广告,无人工反馈,容易引入不相关的广告,也有可能引入欺诈广告,点击通过率这个方法可以通过点击率把欺诈广告过滤掉。如果没有点击通过率的考虑,就没有点击通过率预估的概念。也无法对预估的数据进行排序,也很难把一些高质量、有价值的广告投放出来。实现点击通过率的预估,机器学习是一个强大的工具。

二、当推荐广告使用了机器学习算法

机器学习最基本的做法,是使用算法来解析数据,从中学习。然后对真实世界中的事件作出决策和预测,比如预测你到底会不会点击这个广告。以数以亿记的搜索数据为基础,通过深度学习提取特征,让广告商更精准的找到客户。


640?wx_fmt=png     第一步、从原始数据里面做特征的抽取,形成宽表。比如日志信息。

第二步、噪音过滤,如果数据中存在缺失值(数据)或者异常值(数据)等要做噪声处理。

第三步、特征选择是要去除掉冗余的特征。你提取了很多你认为是可能影响点击的因素,选择比较合适的放进去

第四步、挖掘特征中潜在的信息可以做特征变换。挖掘特征里面的关系。

第五步、选择合适的算法,建立机器学习的模型。(简单算法包括线性回顾,复杂的用深度神经网络)

第六步、调整参数,使得模型的效果达到最优。

第七步、模型评估,评估指标如Accuracy,AUC等。

结果的好坏,需要有一个反馈机制,效果不好,重新进行特征选择。

640?wx_fmt=jpeg

在推荐案例方面,前百度资深科学家、创立智铀科技的夏粉博士在创业家的APP中提到:该APP面向的用户是创业者和相关投资人。在这个场景下,内容方面目标是用户个性化推荐。最关键的是用户和文章找到最好的匹配。用户侧的信息会有:使用习惯(苹果还是安卓系统)、消费属性(是否注册,绑定银行卡)、兴趣特征(喜欢哪一个类别的文章)、自然属性(性、年龄)、社会属性。文章是基本属性、内容属性、运营属性、用户参与。

640?wx_fmt=jpeg

方案一:LR逻辑回归。

特点:训练速度快,参数少,特征可解释性好。效果中等。

方案二:DNN(深度神经网络)。

特点:模型层数多,参数多,训练时间长,效果较好。

方案三:LR。

特点:结合DNN模型和LR模型的优点,训练时间中等,效果较好。

640?wx_fmt=png

可以不夸张地说,在过去相当长的一段时期内,大数据这一方法论在实践中唯一形成规模化营收的落地行业就是在线广告,只不过当年大数据这个词还不那么流行罢了。即便在今天,计算广告仍然是大数据应用中最为成熟、市场规模最大的行业。                                             ——《计算广告》

640?wx_fmt=png


三、当机器学习平台自动化

伴随着大规模搜索和文本分析、信息获取、统计模型、机器学习、分类、优化技术在在线广告领域的成熟,广告想要找到与其内容匹配的、精准的客户,在今天已经是一项比较可靠的技术。

但是,技术的进步不会停歇,伴随着算法设计的突破,已经可以使用机器学习平台进行建模,比人工建模的时间效率显著提升,以前人工建模的时间从几小时到几天都有可能,机器学习平台自动建模的时间可以降到几分钟,模型的效果也会显著提升,可自动提供特征和模型的解释性报告,方便用户理解和使用模型。这样平台建模可以把数据、模型和算法库整合在一起,上传数据后自动生成创业家的数据报告,添加预测标签,自动建模提高深度学习的效率。将最基础、常用的数据分析方法机器学习给自动化。利用算法更好的将广告推送给消费者。所以从用户的角度,精准推送广告不仅应用了机器学习技术,在此基础上,自动化广告数据分析的机器学习平台也已经投入使用。

640?wx_fmt=jpeg


目前,公开的有众多开源算法,但这仅仅是提供一个算法,并没有解决怎么自动让算法取得好的效果,需要科学家将算法应用到实际的问题。目前人工挖掘特征、进行特征选择和特征组合,这部分的工作可以由机器学习的平台来进行加速,在广告这个场景下,大规模机器学习平台效果可以做到很好。

640?wx_fmt=png

自动化机器学习的突破最大的是算法设计突破,你要找到A问题近似B问题,比如谷歌AutoML是用强化学习做的,他也是穷值,穷值下面也是有一个产生概率在里面,我有几个候选,这些都有可能是最优解,我把每个最优解都放了一些概率分布在这儿,然后根据概率分布我随机抽一点,抽一点上去试,试的话反馈过来会改变这个概率的分布形式,最终概率分布形式变了,最终最有可能是最优解的概率覆盖到更大的概率。学这种策略,就是用强化学习的方式去做。强化学习是实现自动化的一个方式。                      ——夏粉博士

640?wx_fmt=png

在线广告在其短短十几年的发展过程中,已经形成了以人群为投放目标、以产品为导向的技术型投放模式。在线广告拥有准确接触目标受众为方法,变得十分强大,但是对于技术和数据的应用总是有利有弊,最近的丑闻中,Facebook的选举广告投放就在不知不觉中影响着选民,因为足够精准、对投放对象又足够了解,能起到定向说服的作用。举例说明,在选举中,你在特朗普和希拉里之间来回摇摆、犹豫不决。如果你频频向反对移民进入美国的新闻点赞。算法将会向你推送类似“特朗普一直抨击移民抢了美国人的饭碗”类似的广告,“特朗普主张收紧移民政策”、“特朗普主张去全球化”。总之,让你频频看到特朗普的政策最合你意。最终,你受到了精准推送新闻的影响,把选票投给了特朗普。实际上,你被推送广告的人或者机构,消无声息的影响了。而特朗普对亚洲和女性的态度,让你完全不能认同的事早都抛到九霄云外了。这是对一类态度人群的做法,如果有一对一的推送业务呢?很多社交网络的用户都是实名制的。很多浑然不知的对意识改变在刷Facebook的时候都已经悄悄的发生了。(完)

640?wx_fmt=jpeg

以上内容,部分参考百度人工智能开发者实践营中夏粉博士的演讲内容,因为并未取得与演讲者的联系,内容并未与演讲者核实,请读者见谅。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值