史上最全因果推断合集-5(腾讯基于因果效应建模的PUSH配额优化)

本文介绍腾讯基于Uplift-Model的QQ浏览器PUSH配额优化实践。文章围绕下面三点展开:

  • PUSH系统的特点
  • PUSH因果性分析
  • 因果效应建模

01

PUSH系统的特点

日常获得资讯有两种方式,一是主动打开资讯的推荐信息流,二是被动点开PUSH推送。整体来说,PUSH系统与推荐系统类似,PUSH推送可以建模为用户个性化推荐问题,通过计算候选内容点击概率,挑选点击率最高的内容进行推送。

PUSH系统与推荐系统不同点在于,推荐系统有用户主动请求,携带浏览意图,此时只要做好用户的兴趣与内容的匹配即可。而PUSH系统无用户主动请求,浏览意图不明确,对用户有干扰风险,如果无限制下发PUSH或不针对场景细化分析时,对产品可能带来不好的影响或收益不如预期。

PUSH业务的流程可拆解为:寻找时机-建立心智-获取注意力-内容干预-用户激活。依此流程,我们将PUSH问题拆分为四部分:

  • 下发时机问题
  • 累计影响问题
  • 内容与兴趣问题
  • 资源优化问题

本文着重介绍累计影响问题中,将多条PUSH下发作为一个整体干预来衡量影响,使用配额因果效应建模解决。

我们可以利用传统uplift model,将人群分为四象限:干预转化、自然转化、无动于衷、副作用。把PUSH下发条数干预视为干预因子,PUSH下发带来的转化增量收益视为因果结果,而整体的建模目标为干预有正向转化用户,避免干预副作用用户,适度干预自然转化或者不转化用户。从数据统计中也可见,对于单个用户PUSH的下发量与当天是否活跃不是线性关系,所以需要个性化下发PUSH条数获取较大的DAU收益。下发条数(配额)为用户点击的重要干预因素,所以在用户PUSH敏感度建模的基础上,考虑配额干预带来的因果效应影响。

目前,PUSH因果效应模型系统可以分为四部分:

  • 推荐系统服务:单次决策,CTR为导向;
  • 因果建模服务:基于PUSH下发条数与用户活跃度的关系,做到最大化DAU的因果建模;
  • 配额分配服务:考虑资源的总量与用户关系长期影响,进行配额限制;
  • 下发调度服务:选择适合的时机下发。

02

PUSH因果性分析

传统uplift model存在单样本无标签问题,即反事实。反事实为无法同时观测一个用户收到N条PUSH和不收到PUSH的活跃结果。因此需将用户分为对照组、实验组衡量平均因果效应(ATE),可以利用T-learner、S-learner解决。但传统uplift model可能面临高维特征过多,干预特征容易被淹没,难以充分学习到因果效应。利用2021年某日数分析,发现当前端活跃度曲线和PUSH UTR曲线存在较大的GAP,最优场景应为PUSH UTR逼近端活跃。因此,从DAU的角度来看,PUSH下发条数仍然存在较大的优化空间。

传统uplift model存在建模outcome与treatment因果问题。受到反事实问题约束现有uplift model(如T-learner、S-learner),只能建模outcome,间接建模uplift。因此严重依赖outcome的校准率,outcome与treatment二者之间的因果关系受到自然转化的影响有偏差。实际应用后,从弹性曲线分析可以看出,基本符合预期,但存在模型不稳定,随机实验的训练数据不稳定,造成波动较大,实际收益未达理论预期。

03

因果效应建模

再看传统的uplift model,我们可以引入先验知识,干预转化用户,即为PUSH独启用户。PUSH独启用户是因为下发PUSH才活跃的用户,其因果效应为1,通过反事实推理不同用户的因果效应大小,得到用户间的因果效应偏序关系数据。在PUSH下发场景,uplift model可以得到在增益人群的天然增益值的偏序关系,对校准outcome有很大助益。另外,对于高维特征过多,干预特征容易被淹没问题,可以利用metriclearner模型表示层拉伸实验组与对照组的物理距离,进而增强干预带来的因果差异。

整个模型如下图所示,为S-learner改良版,引入pair wise偏序关系建模直接学习uplift信息,加入metric learning增强用户特征表示和uplift相关性,最终为多任务建模方式。

使用优化后的模型,偏差明显降低,模型弹性曲线面积也比较平滑,但是不同天的偏差差异还是存在,所以实际使用得观察偏差变化天之间差异。对整体大盘DAU提升而言,原有S-learner模型仅提高 1.38%,因果效应增强的uplift model则能提高 2.808%。整体的工作也整理了论文《Push Notification Volume Optimization Based on Uplift Model at Tencent Mobile QQ Browser》投出。

04

精彩问答

Q:uplift model的特征有哪些?包含哪些方面?

A1:与传统机器学习差别不大,追加干预特征(T=1/T=0);实操手段上,uplift model最大的问题为没有个体样本,要用群体样本去建模个体因果效应;理论层次上,uplift model用的是因果效应解释问题,传统机器学习模型用的是概率论解释问题。

Q:如果不用uplift model传统方案怎么解决?如何理解uplift model的优势?

A:不考虑多条累计效应影响,最传统的方案即考虑单条决策,下发PUSH用户是否会点,解决用户与内容匹配的关系;若希望用户从低活变成高活,或从沉默变成低活,传统模型无法观测增量最大化。

Q:干预变量容易淹没怎么解决?

A:小数据情况下,干预变量还是容易启到作用;整个工作的创新,就是把uplift model用到超大规模的场景,并维持模型的有效性及稳定性。

Q:单模型标签转换的方式跟双模型的效果哪个更好?

A:从实践上单模型做的足够好,会比双模型好。单模型如果稍微复杂,可以把校准的问题融在一起解决。如果是双模型的话,每个模型都要在某个刻度的绝对值足够准,这样相减的值才会准。

Q:损失函数怎么定义?训练时要分开吗?

A:训练一起训练,模型可以简化为 embedding+concat+全连接。可以加任何损失函数,只要能缓解outcome跟uplift间可比较性的问题。

Q:uplift model优化的是自然流量的成本,这个和对照组如何评估ROI?

A:使用厂商通道下发PUSH有成本,所以在同一品牌里,下发条数就是成本。

Q:uplift model中的4种outcome怎么获得?

A:其实只有2种outcome,能获得实验组、对照组的outcome,再根据PUSH的表现形式来拆,拆出“PUSH独启”用户可以理解为第一象限的干预转化用户。目标是找到4象限的人,但是一开始获得不了,只知道是存在的。

Q:增加表示距离的操作方法是什么?为什么这么做?

A:参考PSM反事实表示。反事实表示的论文有结论为:在深度学习进行用户表示时,若样本能区分出两类用户,表示时两个样本的距离越远,模型表达会变好。直观理解为区分越大,因果相应越强。上文使用metric learner加深距离,可以缓解模型不稳定性。

Q:如何缓解小数据集中T=1过于稀疏性的问题?

A:实践中因数据量大,问题不大。X-learner 传统方法可以缓解,但没有太深入研究。

Q:如果一开始没有拿到outcome的具体值,模型中怎么带入?怎么得到outcome的差值?

A:用反事实映射缓解,但效果不能保证。

Q:uplift model 的训练效率与ROI如何?

A:传统经济学领域里应用约千~万条,效率高。实践中在十万~百万级别,实验组、对照组分开来收集数据,天然比传统模型低一个量级,效率也高。uplift model不是以效率主导,主要缓解性问题,而不是数据规模问题。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值