Challenges and Opportunities with Causal Discovery Algorithms: Applications to Alzheimer

在这里插入图片描述

该论文发表于Nature期刊中的子刊 ScientificReports 中的一篇论文,其主要讲述了SEM、FCI和FGES三种算法在阿尔兹海默症方向的应用。论文事先已经获得了一个由专家标注的金标准因果关系结构图,然后采用三种不同的算法并辅助于相应的处理(增加知识)来比较三种算法生成因果结构的效果。论文最后给出了三种算法的弊端以及相应的解决方法。

论文链接:https://www.nature.com/articles/s41598-020-59669-x
论文代码:暂未找到

Abstract: 因果结构发现(CSD)是通过计算方法从大量数据中识别因果关系的问题。本研究的目的是系统地检查(i)CSD方法能否从观察性临床数据中发现已知的因果关系,(ii)到更多的指导,以准确地发现已知的因果关系。该模型使用**阿尔茨海默病(AD)**作为一个模型,因为公认的证据提供了一个“金标准”的因果图进行评估。我们评估了两种CSD方法,快速因果推断(FCI)快速贪婪等价搜索(FGES),它们从阿尔茨海默病神经成像倡议(ADNI)收集的数据中发现这种结构的能力。我们使用结构方程模型(不是为CSD设计的)作为控制,在三种情况下应用了这些方法,增加了提供给这些方法的背景知识。这些方法是通过将由此产生的因果关系与文献中构建的“金标准”图进行比较来评估的。专门的CSD方法成功地发现了几乎与金标准相一致的图表。为了获得最好的结果,CSD算法应该与纵向数据一起使用,提供尽可能多的先验知识。

Introduction

​    虽然目前一些机器学习技术、深度学习技术等在疾病诊断和风险预测方面取得了比较好的效果,但是在许多生物医学应用中,实现高预测精度本身并不是主要目标;发现可以改变的危险因素或机制是主要的研究问题

​​    临床研究主要集中于因果关系上。例如,假设驱动的临床研究,通常假定一个因果结构,生物标志物和结果之间的一组因果关系,并且研究人员估计这些关系的缺陷大小(例如。“因果关系”)。在这样的研究中,得出因果结论是有效的,因为先验知识可以确定了这种关系确实是因果的。然而,当我们不知道因果关系时,因果结构本身需要通过一个被称为因果结构发现的过程从数据中发现因果结构本身。一种常用但不正确的做法是假设一个部分因果结构,并使用结构方程模型等方法,根据输入模型的输出统计数据进行调整。

​    在这项工作中,使用AD生物标记物作为预测因素认知作为结果??,我们开始确定一种发现因果关系的最佳方法。我们使用AD作为这个问题的模型,因为AD生物标志物级联已经被很好地理解了,并且主要预测器之间的因果关系也被很好地描述了,从而可以构建一个“金标准”图。此外,阿尔茨海默氏症←神经成像倡议(ADNI)的公共数据集有广泛的纵向数据,有助于在本手稿中计划的系统比较。在这里,我们专注于将专用的因果发现算法基于SEM的搜索算法的结果与我们的“金标准”图进行比较。我们还研究了常见错误背后的原因,并探索了预防它们的方法。这些实验使我们能够为使用观测数据发现因果结构提供了指导方针。

Background

因果结构发现算法

​    在非形式上,因果关系被视为两个变量X和Y之间的关系,因此X的变化会导致Y的变化。关联和因果关系之间的关键差异在于混淆的可能性。假设在X和Y之间不存在直接的因果关系,而是由第三个变量Z同时导致X和Y(共因,混淆因子)。

​    因果结构是一组变量之间的因果关系的集合,而因果结构的发现是从观测数据中学习因果结构的问题。专门的因果结构发现算法存在,可以分为两种子类型,基于约束的基于分数的

​    基于约束的算法:根据条件独立约束构造因果结构;

​    基于分数的算法:生成许多候选因果图,为每个因果图分配分数,并根据分数选择一个图。

​    在本研究中,我们从每种类型中选择了一种突出的算法:基于约束的快速因果推理算法(FCI)和基于分数的快速贪婪等效搜索算法(FGES)。为了简洁起见,给出了FGES和FCI的高级描述。这两种方法都能适应观察到的混杂,其中一种算法FCI具有一定的发现潜在混杂的能力

快速因果推理算法(FCI)

​    基于约束的因果发现算法背后的核心概念是不同的因果结构意味着不同的独立关系。 FCI的一个特殊特征是它发现潜在的(未被观察到的)混杂因素的能力。它是由另一个原始的结构,即“Y”的结构来启用的。当四个变量具有以下因果关系时,它们会破坏一个“Y”结构:W1→X←W2和X→Y。在“Y”结构中,W1和W2都独立于X条件的Y。它是条件独立有助于排除X和Y之间未测量的混淆器的可能性。换句话说,当FCI在图中建立了一个“Y”结构时,从X到Y的因果关系被保证不会被混淆;否则,FCI假设存在可能的未被观察到的混淆因素。

​    FCI算法:FCI构造一个以完全连接的无向图开始的因果图,并移除有条件自变量连接的边。 在第二阶段,它通过识别“V”和“Y”结构来定位边,并试图根据一组已在其他地方详细解释的规则来定位其余的边。

​    FGES算法:FGES算法也有两个阶段。在第一阶段,它以不包含边的图(对应于所有变量相互独立的值)开始,并且贪婪地在尽量减少贝叶斯信息分数(BIC)的方向上一次添加一个边(依赖项),BIC可能因复杂性而被惩罚以减少覆盖。然后,GES一次删除一个边,只要它减少了BIC。本工作中使用的FGES算法只是GES的一个“快速”(并行化)版本。与FCI类似,FGES也依赖于“V”结构来定位边。这个“V”结构的隐含可能性是唯一的,而A→B→C,C→B→A和A←B→C的可能性是相同的。当它意味着比其他结构有更高的可能性时,FGES将选择“V”结构。

​    结构方程建模(SEM):结构方程建模(SEM)是一系列统计模型,如果给定潜在的因果结构,它可以估计每个关系影响的大小(以及其他统计数据)。SEM还可以建议对给定的因果结构进行修正,以提高模型拟合统计。

​    虽然SEM的设计并不是为了发现因果结构,但使用SEM的建议来修改“重新定义”图形结构并不少见。该特征可以在每次迭代中构建因果图,并根据SEM的建议添加一条边。我们在两种情况下实现了这种(不正确的)搜索方法:

​    (1)从空图开始(因果发现)开始;

​    (2)从从“金标准”图中删除1或2条边获得的图开始。

​    请注意,在本文的范围内,我们使用术语“SEM”来表示使用SEM进行边搜索的算法,而不是用来估计影响的大小。

算法之间的关键差异

​    SEM和FGES都是通过添加或删除边来修改结构的逐步算法。FGES的最大优点是通过将当前结构转换为其他“等效”结构来扩展搜索空间。

​    除了搜索策略(基于约束策略和基于分数的策略),FCI在假设因果关系时也与其他两种算法不同:SEM和FGES都在没有未测量的混杂因素的假设下工作。换句话说,所有的混淆变量都是在数据集中测量的。然而,FCI放宽了这个假设,并且只有在遇到“Y”结构时才报告一个未混淆的关系。

Method

Data

​    本文所用的数据来自阿尔茨海默病神经成像倡议(ADNI)数据库。ADNI的主要目标是测试串行磁共振成像(MRI)、正电子发射断层扫描(PET)、其他生物标记物以及临床和神经心理学评估是否可以结合起来测量轻度认知障碍(MCI)和早期阿尔茨海默病(AD)的进展。ADNI数据是取消识别的,并可公开下载。 我们的研究集中在前两个:ADNI1和ADNI2/GO。如果删除具有缺失值的记录,还有1008名参与者至少有一个完整的记录,还有266人需要定期进行为期两年的随访。

金标准图

​    根据现有医学技术知识得出的金标准因果图。
在这里插入图片描述

背景知识和横断面与纵向数据

​    为了约束算法可以发现的关系,背景知识可以以必须拥有或必须不拥有(禁止)边的形式提供。该论文中定义了三个程度的背景知识:

​    Level 1:无知识:发现的结构纯粹是对数据的重构,没有边缘是禁止的。

​ ​    Level 2:一些琐碎的背景知识:a)禁止使用人口统计学变量之间的边缘(尽管它们之间仍然存在关联);b)禁止从生物标记物或诊断到人口统计学变量的边。

​    Level 3: 纵向:除了第2级禁止的边缘外,还禁止从较晚的时间点指向较早的时间点的边缘。

学习设计

​    因果发现学习

​    我们从ANDI中提取了这部分研究的两个数据集:一个是单个横断面,数据是在每个参与者进行的基线访问时收集的。 第二个是纵向的,我们包括了两个横截面的数据:基线访问和24个月的访问。 有缺失数据的记录被从进一步的研究中删除。

​    为了产生稳健的结果,横断面和纵向数据在参与者的水平上被引导100次。 然后,对三种算法SEM、FCI和FGES在所有引导样本上进行了测试,以进行评估,其中包括上一节中描述的三种不同程度的知识。

​    SEM 恢复学习

​    由于大多数研究人员将从假设图开始,只使用SEM添加边,我们还在这个假设用例下测试了SEM:我们通过从“金标准”图中删除每一条边和每一对边来初始化(假设)图,然后测试SEM是否可以恢复删除的边缘不超过五次迭代的边添加。我们在这项研究中选择了五个,因为超过五次的边缘添加将导致一个低回忆的图形。

评估指标

​    1.当且仅当一条边与金标准图中的边相同且方向一致,认为该边是正确的

​    2.当且仅当一条边与金标准图中的边相同,且方向与金标准图中的不矛盾,认为该边是半正确的

​    3.如果该边在金标准图中不存在或者该边存在,但是方向与真实方向相反,认为该边是错误的

​    该论文提出了如下指标:

​    1.精确度:在该算法所报告的所有边上的正确的或半正确的边的比例

​​    2.召回率:正确或半正确地报告的“金标准”图中边的比例

​    3.出现率:邻接值的百分比显示在100次引导程序运行的结果中??

结果

因果发现研究

​    该部分主要讨论了SEM、FCI和FGES三种算法在三种先验知识下生成的因果结构,典型错误的幕后机制将在讨论部分进一步研究。

​    实验一:没有背景知识

​    图3呈现出在100次有放回抽样的测试中出现率在80%以上的边,红色边是不在金标准图中边,每个图的右边是在100次有放回抽样中的精确率、召回率以及正确、半正确和不正确的边数。在这里插入图片描述
​    SEM算法只发现了金标准图中的两条边,FCI和FGES都发现了8条边中的四条边。但是通过结果可以发现,以上这些算法都不能很好地确定模型的方向性;此外还可以观察到,这三种算法都报告了从生物标记物到人口统计学变量的边缘,这当然是错误的(ABETA->APOE42)。

​    实验二:增加了一些琐碎的背景知识

​    图4展示了实验结果,图3和图4是相似的。
在这里插入图片描述
​    虽然以上方法仍然存在少量错误,但是在加入模糊知识之后已经产生了非常重要的提升。在SEM算法中发现的一些错误的因果关系其实是金标注图中的间接因果关系,例如APOE42到DX的关系。在这三个算法中,SEM的效果最低,FCI和FGCS取得了更高更实质的性能。

​    实验三:添加纵向数据和琐碎的背景知识

​​    图5展示了实验结果,由于该实验结果建立在纵向数据集上,该图的布局与之前的图形稍有不同。
在这里插入图片描述
​    在加入了纵深数据之后,三种算法的效果都有了明显提升,其中FGES的效果最好。

讨论

​    本研究中,采用加入三种不同程度的知识来测试三种算法,数据集采用了一个具有良好开放可访问的阿尔茨海默病数据。根据已有的金标准因果图,该论文应用了三种算法从数据中发现了这些因果结构,并发现了在构建因果关系时的常见错误,并向我们提出了避免这些错误的方法和建议。

​    经过对三种算法的对比分析发现FCI和FGES两种算法更好地发现了因果关系,SEM效果较差,不过这也不令人意外,因为SEM并不是专门用来设计发现因果结构的,它是主要用途是在用户已经定义的因果结构中进行一些调整。令人惊讶的是,FGES在多大程度上优于SEM,因为FGES和SEM都优化了相同的标准,即BIC。 FGES和SEM之间的关键差异是底层搜索空间的规模:FGES考虑了更广泛的图表数组,所有具有相同依赖结构的图表(变量之间的条件独立性关系集相同)。从SEM恢复实验中,我们还观察到SEM对添加边的建议通常是不可靠的。 在SEM有限的搜索空间中,这些边可以最大限度地提高BIC,但这些不是总体最优边:FGES具有更大的搜索空间,能够(几乎完全)恢复“金标准”图。

​    由于FCI和FGES具有相似的搜索空间,它们之间的主要区别在于它们的搜索算法。 在我们的研究中,基于分数的算法FGES的性能比基于约束的算法FCI更高,更稳定。选择偏差或数据伪影引入的不正确的独立性测试影响了FCI的决策,错误通过生成不正确的“V”或“Y”结构传播到图的其他部分,并最终对图的大部分造成损坏。相反,基于分数的算法在进行局部决策时考虑全局结构的可能性,因此,这些错误仍然是局部化的。FCI的优点是能够放松不被测量的混杂因素的典型假设。 当识别未测量的混杂因素或未测量的因果关系很重要时,这个松弛是有用的。

​    通过进一步分析FCI和FGES算法,将错误主要集中为3类:
在这里插入图片描述
​    总之,专用的因果发现算法在发现因果结构方面优于SEM。 在实际数据分析中,数据质量影响了所发现结构的正确性。 引入先验知识和纵向数据可以通过防止算法犯一些潜在的错误来提高发现的结果。

​    【说在最后】自己也是在逐渐进行论文学习,如果有什么不正确或者不明白的地方,大家可以留言或私信进行讨论哦~

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

FutureForMe@

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值