《因果学习周刊》第9期:因果学习中的工具变量

No.09

智源社区

因果学习组

 习

bb72c5d6987b079af3425c76466275ee.png

研究

观点

资源

活动

关于周刊

因果学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写了第9期《因果学习周刊》。

在因果学习中的反事实推断下,真实情况中的因果推断十分困难,因为常常存在着内生性的问题,即可能存在着隐藏的混淆因子在同时影响“因”和“果”。而工具变量一类的方法则针对于内生性的问题,通过先验知识引入工具变量来进行准确的因果效应估计,在实际应用中十分重要。本期周刊主要针对使用工具变量进行因果推断的一些方法进行介绍,希望可以为相关的研究者带来一些帮助。

告诉大家一个好消息,《因果学习周刊》已经开启“订阅功能”,以后我们会向您自动推送最新版的《因果学习周刊》。订阅方法:请点击本文下方的“阅读原文”,进入《因果学习周刊》Hub社区版,点击作者栏“因果学习周刊”后选择“关注TA”。(注:《因果学习周刊》Hub社区版内有详细的订阅步骤图示介绍)。

本期贡献者:刘家硕

80899389ecbcdd47523334483d97ff6f.png

8d3389eb53c18d2616b05ab18e67b243.png

ed1a06cfec0a33643b3a585615b481a6.png

5c14a8c06a2458f4e77b966310336e6e.png

2c34215d8414c234856a943d4cc7bcb9.png

论文推荐

标题:浙大|Auto IV: Counterfactual Prediction via Automatic Instrumental Variable Decomposition了解详情

简介:工具变量(Instrumental Variables, IV)是治疗随机化的来源,有条件地独立于结果,在未观察到的混杂因素的因果推理中具有重要作用。然而,现有的基于工具变量的反事实预测方法需要预先定义好的工具变量,而在许多现实场景中,找到有效的IV是一门艺术,而不是科学。此外,人为预先定义的IV可能会因为违反有效IV的条件从而引入错误。这些棘手的事实阻碍了基于IV的反事实预测方法的应用。在本文中,我们提出了一种新的自动工具变量分解(AutoIV)算法,从观测变量(IV候选变量)中自动生成IV的表示。具体来说,我们通过互信息最大化和最小化约束,让学到的IV表示分别满足与治疗和结果的相关性条件。我们也通过鼓励他们与治疗和结果相关来学习混杂表征。在对抗性博弈中,IV表征和混杂表征通过它们的约束条件争夺信息,这使得我们能够得到基于IV的反事实预测的有效的IV表征。大量的实验表明,我们的方法能够产生有效的IV表征来进行准确的基于IV的反事实预测。

论文地址:http://arxiv.org/abs/2107.05884

推荐理由:本文是况琨老师组的最新工作,提出了在表征学习中同时学习IV与混淆变量的框架,其问题建模十分新颖,有很大的参考价值。

标题:NeurIPS20 & 马普所|Dual Instrumental Variable Regression了解详情

简介:我们提出了一种新的非线性工具变量(IV)回归算法DualIV,它通过对偶公式简化了传统的两阶段方法。受随机规划问题的启发,我们证明了非线性回归的两阶段过程可以重新表述为凸-凹鞍点问题。我们的公式使我们能够避免第一阶段的回归,这是一个实际应用中潜在的瓶颈。我们开发了一个简单的基于核的算法,并基于这个公式给出了一个解析解。实证结果表明,我们有的算法相比现有更加复杂的方法仍然有很强的竞争力。

论文地址:https://arxiv.org/abs/1910.12358

推荐理由:本文将IV回归的两阶段方法整合为了一个阶段,并且提出了非线性的核算法,具有参考价值。

标题:浙大&清华|Data-Driven Variable Decomposition for Treatment Effect Estimation了解详情

简介:因果推理在许多领域的决策中扮演着重要的角色,如社会营销、医疗保健和公共政策。因果推理的一个基本问题是观察性研究中变量混淆时的治疗效果估计。控制混杂效应通常由倾向评分来处理。但它将所有观察到的变量视为混杂变量,忽略了对治疗没有影响但对结果有预测作用的调整变量。最近,已经证明调整变量在降低估计的治疗效果的方差方面是有效的。然而,如何在观察性研究中自动分离混杂因素和调整变量仍然是一个开放的问题,尤其是在大数据时代常见的高维变量场景中。本文首先提出了一种数据驱动变量分解(Data-Driven Variable Decomposition, D2VD)算法,该算法可以通过数据驱动的方法自动分离混杂变量和调整变量,同时估计高维变量观察性研究的处理效果。在标准假设下,我们从理论上证明了我们的D2VD算法能够无偏估计处理效果,并且比传统的基于倾向评分的方法具有更低的方差。此外,为了解决高维变量和非线性的挑战,我们将D2VD扩展为非线性版本,即非线性D2VD (N-D2VD)算法。为了验证我们提出的算法的有效性,我们在模拟数据集和真实数据集上进行了大量的实验。实验结果表明,与现有方法相比,我们的D2VD和N-D2VD算法能够自动准确地分离变量,以更精确的置信区间估计处理效果。我们还证明了我们算法的排名靠前的特征在在线广告数据集上有最好的预测性能。

论文地址:https://ieeexplore.ieee.org/document/9133279

推荐理由:本文是况琨老师和崔鹏老师的工作,在之前DVD算法的基础上进行了扩展,用于非线性情形,值得推荐。

标题:NeurIPS19 & MIT|Kernel Instrumental Variable Regression了解详情

简介:工具变量回归(IV)是一种从观察数据中学习因果关系的策略。如果输入X和输出Y是被混淆的,那么如果有一个工具变量Z直接影响X,但在给定X和未测量的混杂因素的情况下有条件地独立于Y,那么就可以确定因果关系。经典的两阶段最小二乘算法(2SLS)通过将所有关系建模为线性函数来简化估计问题。我们提出了核工具变量回归(KIV),这是2SLS的非参数推广,X, Y和Z之间的建模关系作为再现核Hilbert空间(RKHSs)中的非线性函数。我们在温和的假设下证明了KIV的一致性,并得到了无混杂单阶段RKHS回归收敛在极小极大最优速率下的条件。在此过程中,我们获得了算法第一阶段和第二阶段中使用的训练样本大小之间的有效比率。在实验中,KIV优于目前最先进的非参数IV回归方法。

论文地址:https://arxiv.org/abs/1906.00232

推荐理由:本文提出了核IV回归方法,将变量之间的关系建模为了RKHS空间中的非线性关系,具有一定的新颖性,值得推荐。

标题:ICML & UBC|Deep IV: A Flexible Approach for Counterfactual Prediction了解详情

简介:反事实预测需要理解所谓的治疗和结果变量之间的因果关系。本文提供了一种深度学习方法的方法,以在存在工具变量(IV)的情况下准确地描述这种关系——有条件地独立于结果的治疗随机化来源。我们的IV规范分解为两个可以用深度神经网络解决的预测任务: 第一级网络用于治疗预测,第二阶段网络的损失函数涉及对条件治疗分布的集成。Deep IV框架允许我们利用现成的有监督学习技术,通过调整损失函数来估计因果效应。实验表明,该方法的性能优于现有的机器学习方法。

论文地址:http://arxiv.org/abs/1612.09596

推荐理由:本文在深度学习的框架下提出了学习并使用IV变量的方法,具有很强的启发意义,值得参考。

标题:TKDE|A Causal Probabilistic Network for Optimal Treatment of Bacterial Infections了解详情

简介:与严重细菌感染相关的死亡率约为30%,适当的抗生素治疗可将其降低一半。不幸的是,医生开出的抗生素治疗处方中有三分之一是不合适的。我们建立了一个因果概率网络(CPN)来治疗严重的细菌感染。网络是基于模块的,每个模块代表一个感染点。一个模块的总体配置如下:主要分布因素定义了患者的群体,每个患者由特定的病原体引起的感染的流行程度都是确定的。较小的分布因素增加了一种病原体的可能性,但不会很大程度上改变感染流行率。由病原体引起的感染引起局部和全身的体征和症状。如果抗生素治疗与体外病原体的易感性相匹配,那么它是适当的,并且适当的治疗与预期寿命的增加有关。这要与药物成本、副作用和生态破坏进行平衡,以达到最具成本效益的治疗。网络是这样构建的,条件概率表的数据将是可用的,即使这意味着有时要放弃精细的建模细节。在数据方面,我们使用了我们在过去10年收集的大型数据库和文献数据。CPN是一种方便的方法,可以将不同地点和时间收集的数据库数据与发布的信息结合起来。虽然网络是建立在详细而庞大的数据库之上的,但它对新站点的校准需要大多数现代医院都能获得的数据。

论文地址:https://ieeexplore.ieee.org/document/868905

推荐理由:本文是2000年发表于TKDE的文章,文中依据prior knowledge构建了一个因果网络,并且使用真实数据集进行了一定的校准,对于相关的研究有着重要作用。

标题:TKDE|Causal Knowledge Elicitation Based on Elicitation Failures了解详情

简介:本文提出了一种由领域专家直接使用的工具支持的因果知识提取方法。这种知识启发方法的特点是试图猜测专家输入的知识的解释。该工具(最初是通用的)在使用时自定义其猜测能力,记住猜测中的失败(为了避免将来出现类似的失败),并在它们发生时引出它们的解释。即使在这种情况下,启发也是基于以前类似失败的猜测。由此产生的整体效果是,该工具顽强地从专家的头脑中挖掘出因果知识,以这种方式为模型构建发挥协作作用。 

论文地址:https://ieeexplore.ieee.org/document/469824

推荐理由:本文是1995年发表于TKDE的文章,提出了领域专家辅助的因果知识提取方法。

标题:TKDE|Causal Decision Trees了解详情

简介:揭示数据中的因果关系是数据分析的一个主要目标。因果关系通常是在设计好的实验中发现的,例如随机对照试验,但在许多情况下,这是昂贵的或不可行的。因果关系也可以通过一些设计良好的观察性研究来发现,但它们需要领域专家的知识,而且这个过程通常很耗时。因此,需要一种可扩展的、自动化的方法来探索数据中的因果关系。分类方法速度快,是在数据中寻找因果信号的实用替代方法。然而,分类方法并不是为因果发现而设计的,一种分类方法可能会发现错误的因果信号而忽略真实的因果信号。在本文中,我们发展了一个因果决策树,其中节点有因果解释。我们的方法遵循一个建立良好的因果推理框架,并使用了一个经典的统计检验。该方法适用于在大数据集中寻找因果信号。

论文地址:https://arxiv.org/pdf/1508.03812.pdf

推荐理由:本文使用决策树来发现因果关系,具有一定的新颖性,值得推荐。

ba206a9938fe4e4620e2a42dd461af2b.png

如果你正在从事或关注 因果学习研究、实现与应用,欢迎加入“智源社区-因果学习-交流群”。在这里,你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

扫描下方二维码,加入因果学习兴趣群。

982badd6d054e3b34952c2e4f1cf1a96.png

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值