计算广告学方向概述

计算广告学算是最近几年兴起的一个交叉学科,主要是用于进行广告的CTR预估。这里所谓的CTR就是指click-through-rate,通俗的讲就是每条广告被展示出后的点击率。对于互联网行业来说,公司的主要盈利模式有三个:广告,游戏,电商。对于没有后两者业务的互联网公司来说,广告是公司来钱的主要途径。从技术层面来说,广告CTR预估是属于大规模稀疏机器学习问题,和普通的机器学习问题不同的是,广告数据量庞大,特征数量庞大,正负样本非常不平衡,学习难度大,技术点非常多。今天听了百度对于广告推荐这方面的一个47分钟长的讲座,受益匪浅,在这里记录一下,并明确自己上手的一个方向。


整个讲座一共分三个部分进行讲解。

第一部分是计算广告学。计算广告学的核心问题是在给定的环境下,对用户和广告进行最佳匹配。这里的给定的环境在搜索引擎中主要是指用户所输入的query。当然这可以算是显性用户行为,对应的隐性用户行为是指用户当时所浏览的网页或所观看的影片内容。

而整个公司的收益可用以下公式进行计算:profit = PV * CTR * ACP。其中PV指的是页面浏览量,对于PV的提升主要是运营和数据分析的工作,和机器学习没多大关系。CTR就是计算广告学中的广告点击率预估,就是我以后的工作重点。ACP是广告每被点击一次广告商支付多少钱,也不是我们能决定的,交给市场部去抬高价。有研究表明,广告的排放顺序对广告的点击率有很大的影响。从公司盈利的角度来讲,为了使公司能盈利最大化,要使CTR预估高的广告放在靠前的位置,所以在对广告进行CTR预估结束后要进行排序,值高的放前边,依次递减。在这里我们就要依赖机器学习和历史数据,做精准CTR预估。


从机器学习的角度来看,训练数据就是历史展示日志,每一个请求对应一个展示集合,点击反馈中0表示未点击,1表示已点击。随后进行模型训练,数据拟合后得出预估模型f。对于训练数据,经过预估系统,得出每条广告的CTR预估。和传统的机器学习流程没什么区别。而数据处理流程主要是对日志数据进行处理。从日志数据中抽取特征,并进行特征预处理,此外还需对数据进行预处理,过滤掉噪音和作弊用户等。


第二部分是计算广告学的大规模机器学习问题的特点介绍。主要有以下四个特点:

1.数据特征规模大:每天百亿广告展现。且类别不平衡,噪音大。这里所谓的噪音需要做一下说明。在实际的商家进行广告投放时,大家都知道位置越靠前越好。要想位置靠前,要么出更高的bid,要么和用户的需求相关度更高。有一些商家不愿意出更高的bid,那他们常常采取作弊的手段,疯狂得点击自己的广告链接,在指标的角度上来讲表现出更高的用户需求相关度,所以位置就靠前(无耻!!)。这些噪音并非表现出用户的真实需求,所以需要把它们过滤掉。

2.特征复杂度高:特征之间存在高度非线性关系。(这里的非线性关系是啥意思我一直没太懂,先mark一下,以后再慢慢了解

3.数据时效性高:点击率随时间变动,比如说兴趣变化,这两天喜欢A,过两天又变卦喜欢B了;另一点就是新广告和流量上线,旧广告和流量下线。这是因为会不断有新的广告商加入平台,新广告和流量和旧库中的数据分布不一样,需要频繁的进行模型更新;同样旧广告和流量,也就是过期的广告下线后对整个数据分布也是有一定影响的,需要进行模型更新

4.数据训练频繁:模型更新和策略调研。原因在上边第3点中已经说了。

  • 4
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值