广告ctr中几个问题

广告ctr预估中的几个问题

最近在做展示广告ctr预估相关的工作,抽空梳理几个问题,现在不一定有答案,先mark一下

衡量预估好坏的指标有哪些?

目前我们使用的是AUC和COPC。

  1. AUC很好理解,就是衡量广告排序好坏的指标,月接近1越好。
  2. COPC这个指标旨在展示广告上应用多一些,其他场景应用不多,全称 click over predicted click,主要衡量model整体预估的偏高和偏低,月接近1越好,一般情况下在1附近波动。
    一般讲,这两个指标相互结合可以对模型做很好的监控:排序是否好,预估的水平是不是真实的ctr水平。但是有一种情况下这两个指标会失效,如下:
    有两个样本 x1 x2,旧模型预估值为p(x1)=0.6,p(x2)=0.4,新模型的预估值p(x1)=0.9,p(x2)=0.1。这种情况下,模型的AUC和COPC都不会变化,但是模型预估的分布确实变了。
    一个更有趣的问题:什么情况下才会出现预估高的更高,预估低的更低?实际的模型会不会出现这种情况?
    目前想到的是两个解决方案:一个统计预估分布的均值和方差;一个是模型的log-loss可以反应出这个情况

负采样的问题

由于点击是一个很稀疏的事件,我们展示的大部分广告都不会点击,能带来点击的广告少之又少,我们这边的线上真实的正负样本比例为1:1440,这是非常严重的数据不均衡现象。如果不对负样本做采样,则训练出来的模型对正样本的排序能力很差 。训练模型的时候我们针对好的渠道的负样做了0.25的下采样,针对差的渠道负样本做了0.007的采样,正样本不做负采样。两个问题:

  • 0.25 的负采样率是前人定的值,我没有调式过,这个值是不是合理?
  • 衡量负采样率是否合适的指标是什么?是线上ABtest衡量还是有用离线的指标衡量

特征选择的方法

我之前判断特征重要性的方法是:首先计算这个特征的统计ctr分布,如果统计分布有比较明显的区别,则会做离线实验,如果离线实验也为正,就会上线ABteset。这个方法比较粗糙一点。有很多度量特征重要性的方法,比如特征的方差,特诊的信息增益,特征的IV值,特征训练出来的权重等,也可以尝试一下这些方法。下面是我想到的几个点:

  • 在对特征做重要性评估前,首先要评估改维度特征的覆盖率,可信度等
  • 在特征没有进入模型之前我们无法通过特征的权重来判断,只通过特征的统计ctr分布来判断会不会有什么问题?比如有一个特征F1,该特征下的统计ctr分布区分不明显一定代表改特征无用吗?不一定,有可能该特征在其他特征配合下会起作用。同理,如果F1的统计ctr分布明显那么AUC和COPC一定能提高吗?不一定,有可能该特征和其他特征是高度线性相关的,这两个特征只需要有一个起作用即可。
  • 在分析特征重要性前,一定要考虑到特征之间的线性相关性对评估带来的影响
  • LR是线性模型,对特征不具有自动去冗余的特性,如果数据中有两个高度相关的特征,这两个高度相关的特征的权重回事怎样的?

COEC特征

coec特征,全称是click over expected click,是一种很好的去bias的特征。在展示广告业务中,广告出现的位置很重要,直接影响到广告的点击与否,好的位置,即使给用户出一个随便的广告也会带来不少的点击。很显然这个点击不是我们给用展示的广告好而是这个位置好用户才点击(很可能是误点击)。这个时候我们需要一个特征能够去除掉位置偏差来衡量展示广告好坏。这个就是coec特征的作用。我想到下面几个点:

  • 目前我们提取了mid-tag, mid-ls,mid-ctype,tag-srctag的coec特征;后续还会增加ad相关的coec特征等。
  • mid-tag相关的coec特征数目太多,即使放到redis里面也有将近1个T,这个后面有没有可以优化的地方?不管是从工程上还是从算法上。

小结

暂时先罗列这几个,我觉的第一个第二个可以做离线的实验,我手头也有数据,可以马上开始实验,如果效果为正向leader反应,做线上abtese。后续可以想到的点,再慢慢添加。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值