因果推断大集合 从0-1的因果知识(一篇)

引言
文章介绍了几类经典的因果推断算法(metalearning、因果森林、连续因果变量、PID、小样本、帕累托最优等),在实际营销场景可结合具体算法快速部署,结果评估中结合AA波动、AB显著差异等方法确定效果的持续稳定性。

1.背景

随着人工智能的发展,越来越多学者开始认识到因果推断对于克服现有人工智能方法/技术在抽象、推理和可解释性等方面的不足具有重要意义。正如图灵奖得奖者Judea Pearl在新作《The Book of Why》一书中提出的 “因果关系之梯”,他把因果推断分成三个层面,第一层是“关联”;第二层是“干预”;第三层是“反事实推理”。目前大部分机器学习模型还处在第一层级,仅仅实现了对历史数据的“曲线拟合”,这就导致:一是解释性差,拟合背后的作用机理处于黑盒状态;二是泛化性差,拟合得到规律只适用于训练数据。而因果推断方法能让我们站上第二、三层级,从而实现更好的解释性和泛化性,这也是因果推断在机器学习领域逐步兴起的一大原因。(因果推断可以补充机器学习方法过程中没有解释清楚的问题,一般ML都是解释X-> Y,但是没有说明白 Y-> X)
在这里插入图片描述

因果推断的目标是发现变量/事物背后的因果关系。随机控制实验(RCTs)是发现因果关系的传统方法。由于实验技术局限和实验耗费代价巨大等原因,越来越多的因果推断领域学者希望通过观察数据(observe data)推断变量之间的因果关系,已成为当前因果推断领域的研究热点。但实施存在两个难点:一是数据缺失的问题(反事实求解),从观察数据中我们只能得到fatual outcomes,无法得知counterfactual outcomes;二是偏差的问题(选择偏差、混淆),收集observational data的过程中,treatments并不是随机分配的,即存在confounders,如果仅根据observational data去估计因果效应,得到的因果效应结果是有偏的。机器学习预测未来,因果推断改变未来。
因果推断解决的问题可以分成两类:
因果推断和机器学习其实是可以互相帮助的。在机器学习帮助因果推断方面,针对上述数据缺失的问题,引入机器学习模型可以大大提高反事实预测的准确率;而通过deep representation learning的方法,则可以对confounder variables进行调整,从而解决偏差的问题。在因果推断帮助机器学习方面,当前的机器学习方法追求的是预测的高精度(accuracy),引入因果推断则可以解决正确性(correctness)和可解释性(interpretability)的问题。
举个例子,一个CVR响应模型(respond model)能预估给某个用户投放广告后的转化率,但实际上即使不投放广告用户也可能会发生转化。至于这个用户是否是因为看到广告才转化的、或者说多大程度上是因为看到广告转化的,CVR响应模型无法回答这个问题。业务上,自然不想再花钱去投放广告给这种不需要曝光广告也能转化的用户(不追求转化的品牌广告除外)。
如果有另一个模型能够预估广告对用户的转化意愿产生多大的影响(uplift CVR),意味着可以把广告预算分配给更需要的用户(花在刀刃上),进而提高整体效益。这就是因果推断要做的事,这种模型称为 uplift 模型(uplift model),强调因果性。
首先以生活中的几个常见例子进行展开
●比如 吸烟是否会导致肺癌吸?烟的人里有肺癌患者,不吸烟的人里也有肺癌患者,这个经典的问题经过漫长的验证。
●比如 上大学是否会带来更多收入?直觉上我们认为高等教育会增加个人收入,但我们却很难说清楚没有上过大学的人如果上了大学会增加多少收入,同时我们也有看到没上过大学也能赚大钱的人。
●比如,在智能营销领域中,给用户发了优惠券以刺激购买转化,但事实上,部分用户可能不需要优惠券也能发生购买转化,如何在给定的平台预算下最大化收益呢?怎么预估用户因为券而增加多大购买意愿的呢?
●比如,如果你当初做了另一个选择,现在的自己会不会有什么不一样…
因果推断 要做的事情就是:预估一种干预因素(treatment)对结果(outcome)的影响(treatment effect)

1.1 辛普森悖论

在这里插入图片描述

首先,考虑一个与现实情况很相关的例子:针对某种新冠病毒 COVID-27,假设有两种疗法:方案 A 和方案 B,B 比 A 更稀缺(耗费的医疗资源更多),因此目前接受方案 A 的患者与接受方案 B 的患者比例约为:73%/27%。想象一下你是一名专家,需要选择其中一种疗法,而这个国家只能选择这一种疗法,那么问题来了,如何选择才能尽量少的减少死亡?
假设你有关于死于 COVID-27 的人的百分比数据(表1)。他们所接受的治疗是与病情的严重程度相关的,mild 表示轻症,severe 表示重症。在表 1 中,可以看到接受方案的人中总共有 16% 的人死亡,而接受 B 的死亡率是 19%,我们可能会想更贵的治疗方案 B 比便宜的治疗方案 A 的死亡率要更高,这不是离谱吗。然而,当我们按照轻症、重症分别来看(Mild 列和 Severe 列),情况确是相反的。在这两种情况下,接受 B 的死亡率比 A 都要低。
此时神奇的悖论就出现了。如果从全局视角来看,我们更倾向于选择 A 方案,因为 16%<19%。但是,从 mild 和 severe 视角来看,我们都更倾向于方案 B,因为 10%<15%,20%<30%。

1.2 相关性!=因果性

我们观察到公鸡打鸣(事件X)和太阳升起(事件Y)总是同时发生,可以说X和Y具有相关性。
如果我们把公鸡杀了(干预X),太阳就再也不升起了(观察Y),说明公鸡打鸣和太阳升起是因果关系,即“X → Y”。
如果我们把公鸡杀了(干预X),太阳依然照常升起(观察Y),说明公鸡打鸣不是太阳升起的原因,即“并非 X → Y”。
如果我们把公鸡关小黑屋里,相当于把太阳遮住(干预Y),公鸡就不打鸣了(观察X),说明“Y → X”。
如果我们把公鸡关小黑屋里(干预Y),公鸡早上依然打鸣(观察X),说明“并非 Y → X”。

1.3 营销四象限

在这里插入图片描述

●persuadables: 不发券就不购买、发券才会购买的人群,即优惠券敏感

  • 16
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
因果推断是科学研究中的重要问题之一。无论是在社会科学、自然科学还是医学领域,因果推断都是理解现象的重要手段。因果模型推理推断PDF是一种新兴的因果推断方法。本文将详细探讨因果模型推理推断PDF的相关问题。 因果模型是用来描述一组变量之间因果关系的统计模型。在因果推断中,因果模型是非常重要的组成部分,用来确定因果关系。对于一个因果模型进行推理推断,需要从一系列数据中确定因果关系。因果模型推理推断PDF就是用来解决这个问题的。 PDF是概率密度函数的缩写。在因果模型推理推断PDF中,概率密度函数被用来描述变量之间的因果关系。具体地说,PDF描述一个变量如何取值的可能性。在因果推断中,PDF被用来表示一个变量受到其他变量的影响程度。因此,通过比较不同变量之间的PDF,可以确定因果关系。 因果模型推理推断PDF的方法有助于减少因果估计的误差。原因是因果估计通常需要基于实际观察到的数据来完成。然而,在实际观测中,存在许多可能的干扰因素。如果这些因素被忽略,因果推断的结果就可能出现误差。因此,因果模型推理推断PDF提供了一个有效的方法来考虑这些干扰因素的影响,从而得到更准确的因果推断结果。 总之,因果模型推理推断PDF是一种新的因果推断方法,对于理解变量之间的因果关系、减少因果估计误差具有重要意义。该方法还为数据科学领域的进一步研究提供了有力的工具。同时,因果模型推理推断PDF的应用也存在一定的挑战与限制。因此,需要进一步加强相关方法的研究和应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Xuxixixixixixix

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值