平台中有一些栏位是留给广告投放用的,对于平台来讲需要关注整体受益,用户需要关注用户体验,广告主需要进行精准的把广告投放给受众,提高转化率。
广告投放给用用户展示,最重要的是排序,之前的排序公式是ctr*Bid,其中ctr是广告的历史点击率,Bid是广告主的出价。缺点是存在广告的冷启动和缺乏用户个性化诉求;对于新上架的广告,投放量太少,数据有偏,可以采用点击率平滑的方式,在广告投放前设置一个默认的展示和点击率,在展示和点击上面各自加一个常数,(C + alpha) / (I + alpha + beta)。
对于展示广告的排序,业界广告采用的公式是pCTR*Bid,其中pCTR是预估点击率,
pCTR:p(click|ad,user),通过逻辑回归进行预估点击率模型训练。
其中1是点击,0是不点击
下图是定向广告预估点击率模型
点击率预估的模型候选特征主要包括广告的特征以及广告和用户相关联的特征;广告特征包括广告质量、历史点击率、人气等,用户对广告特征的爱好作为广告和用户相关联的特征,引入相关联的特征解决广告的冷启动和稀疏问题。把广告的文本描述作为广告的特征表示,来计算用户对每一个广告特征的爱好,存在高维和计算量大的问题,所以对广告抽取主题,把用户对广告主题的爱好作为点击率预估p(c|u,ad)的特征表示。
利用用户在平台上点击的广告,结合用户的画像标签u(f1,f2,f3、、、),训练用户的主题偏好模型,该模型的训练采用二元逻辑回归算法,得到主题偏好模型p(topic|u),再结合用户的画像标签,计算得到用户对每个主题的爱好。用户的标签有上千的维度,为了解决过拟合,降低模型的复杂度,需要对用户的标签特征进行筛选降维,选取对点击PV贡献最大的TOPN的标签特征。
选取好候选特征之后,后续重点是对样本的选择,特征的预处理,这块用单独的章节介绍。