计算广告学是一门由信息科学、统计学、计算机科学以及微观经济学等学科交叉融合的新兴分支学科。前MediaV
首席科学家、前Yahoo!高级科学家刘鹏开设计算广告学(Computational Advertising)公开课。课程地址:http://study.163.com/course/introduction.htm?courseId=321007#/courseDetail
第二章:合约广告系统
第三节:在线分配问题
广告和推荐系统的异同点:广告是三方博弈(sponsor,medium,audience);推荐系统是两方博弈(媒体和用户)
两者主要不同:广告主通过媒体去reach用户时有量的需求(guaranteed delivery,有一个固定量下限的需求);推荐系统是媒体自己推荐,并无明显量的需求
在线分配问题的基本描述:在量的某种限制之下去完成质的优化
下图为Google做法,是一个二部图匹配的问题(受限优化问题)
bia把具体的impression分给某个广告产生的收益(eCPM)
xia是这次impression是否已分给某个广告商,是一个0或1的变量
两者相乘即为整个系统的收益,
constrain:收益<budget
Display ad problem:uia点击率
两者框架类似,应用对象不同
解决受限优化比较通用的方法:拉格朗日方法
slide for reference
在线分配的算法和离线分配的算法相比,不要相差太远
compact allocation plan:不能存储任何和impression有关的状态变量,只能存储和合约或者广告相关的变量,这样规模会比较小
HWM(High Water Mark)算法(Yahoo),在流量预测的基础上进行allocation
如果有1000个节点,在MPI中,这1000个节点协同来完成这个工作,之间存在各种通信和数据交换,
如果其中1个节点出现错误,会导致整个task的失败。在海量数据中,任务失败的概率会更高,
从这个方面去考虑,Map/Reduce更有优势。用户级的数据,如广告,数据量较大,Map/Reduce更有优势。
在文档级的运算中,Map/Reduce不一定是最合适的。
Storm和Hadoop的区别:storm是在调度数据,不是在调度计算
如果一个机器上Run十个Map,Combine的作用是将这十个Map做一个汇总,使之更小。减少机器之间的通信
Map阶段:将输入的每一个词分割开打印出来
指数族分布:在工程上应用广泛
指数族分布:最大似然估计可以通过充分统计量链接到数据;mapper统计,reducer求解参数
指数族混合分布:一次迭代求解不了参数,使用EM多次迭代
对于高斯分布来说ux即为样本的和与样本的平方和
map的过程是去收集充分统计量
如果实际上不是一个指数族或者混合分布的模型,可以使用梯度族的方法去解决
最大熵,条件分布不是指数族,用梯度族去做
可以让离线的数据变得容易控制和升级