刘鹏计算广告学听课笔记 第二章:合约广告系统(二)

计算广告学是一门由信息科学、统计学、计算机科学以及微观经济学等学科交叉融合的新兴分支学科。前MediaV

首席科学家、前Yahoo!高级科学家刘鹏开设计算广告学(Computational Advertising)公开课。课程地址:http://study.163.com/course/introduction.htm?courseId=321007#/courseDetail

第二章:合约广告系统


第三节:在线分配问题

广告和推荐系统的异同点:广告是三方博弈(sponsor,medium,audience);推荐系统是两方博弈(媒体和用户)

两者主要不同:广告主通过媒体去reach用户时有量的需求(guaranteed delivery,有一个固定量下限的需求);推荐系统是媒体自己推荐,并无明显量的需求

在线分配问题的基本描述:在量的某种限制之下去完成质的优化

下图为Google做法,是一个二部图匹配的问题(受限优化问题)

bia把具体的impression分给某个广告产生的收益(eCPM)

xia是这次impression是否已分给某个广告商,是一个0或1的变量

两者相乘即为整个系统的收益,

constrain:收益<budget

Display ad problem:uia点击率

两者框架类似,应用对象不同



解决受限优化比较通用的方法:拉格朗日方法

slide for reference



在线分配的算法和离线分配的算法相比,不要相差太远





compact allocation plan:不能存储任何和impression有关的状态变量,只能存储和合约或者广告相关的变量,这样规模会比较小

HWM(High Water Mark)算法(Yahoo),在流量预测的基础上进行allocation








如果有1000个节点,在MPI中,这1000个节点协同来完成这个工作,之间存在各种通信和数据交换,

如果其中1个节点出现错误,会导致整个task的失败。在海量数据中,任务失败的概率会更高,

从这个方面去考虑,Map/Reduce更有优势。用户级的数据,如广告,数据量较大,Map/Reduce更有优势。

在文档级的运算中,Map/Reduce不一定是最合适的。

Storm和Hadoop的区别:storm是在调度数据,不是在调度计算



如果一个机器上Run十个Map,Combine的作用是将这十个Map做一个汇总,使之更小。减少机器之间的通信



Map阶段:将输入的每一个词分割开打印出来



指数族分布:在工程上应用广泛

指数族分布:最大似然估计可以通过充分统计量链接到数据;mapper统计,reducer求解参数
指数族混合分布:一次迭代求解不了参数,使用EM多次迭代

对于高斯分布来说ux即为样本的和与样本的平方和



map的过程是去收集充分统计量

如果实际上不是一个指数族或者混合分布的模型,可以使用梯度族的方法去解决

最大熵,条件分布不是指数族,用梯度族去做



可以让离线的数据变得容易控制和升级



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值