本文介绍的是CIKM20上百度发表的一篇有关展示广告召回阶段样本优化的文章,论文名称是《Sample Optimization For Display Advertising》。文章提出了多种样本优化的方法,极大提升了线上广告收入,一起来学习一下。
1、背景
工业界广告排序系统大都至少包括两个阶段:候选生成阶段(召回阶段)和排序阶段,如下图所示:
本文我们主要关注召回阶段,在这一阶段,通常是多种策略并行,如协同过滤、基于上下文的召回等等。在百度的系统中,最广泛使用的召回的方式是双塔模型。从数据层面来看,训练一个合适的召回模型,面临如下几方面的挑战:
1)样本选择偏差:召回阶段模型训练的样本是经过排序阶段后最终展示给用户的,仅有一小部分的广告会展示给用户。但模型需要对整个广告队列进行预测,二者存在样本选择偏差。
2)真实的广告曝光分布通常是长尾的,一小部分广告占据了大部分的曝光,这些广告通常有更高的出价,具有更高的ecpm。但由于大部分曝光的广告没有被用户点击,这些高价值的广告通常多次被标记为负样本,其召回概率也降低,平台的收益也会随之下降。
3)曝光但未点击的广告,并不一定是真正的负样本。在广告系统中,一个广告未被点击通常出于多方面的原因,并不能直接认为这些广告与用户兴趣不匹配。
4)广告点击率低,导致样本中正分样本的数量差距较大,正样本比较稀疏。
对于以上几