【论文阅读】Causality matters in medical imaging

前言

  • 因果推断,能够比较全面清晰地理解数据产生机制和相互影响关系,从而可以更容易地提前确定任何问题,并可以通过使用合适的数据收集、注释和ML策略来解决,从而为医疗图像中的机器学习方法提供指导和参考
  • 介绍如何利用因果图(Causal Diagram)为在医疗图像领域应用机器学习方法处理图像分类,图像分割等具体问题提供参考。
  • 主要关心如何利用因果帮助解决在上述任务中可能遇到的数据缺乏(Data Scarcity)及数据不匹配(Data Mismatch)问题。
  • 如何通过判断任务的因果方向,初步评估半监督学习及数据增广(Data Augmentation)两种常见方法的适用性,以选择合适方法处理带标签数据量不足的问题。
  • 其次,我们将基于因果图框架考虑数据集迁移的不同原因和分类,并讨论其背后因果层面的本质区别及处理方法上的不同。
  • 最后,我们将介绍一套适合业界使用的操作流程,帮助认清数据收集方式,从而制定对数据集进行修正的合适方法。

Introduction F1

摘要

  1. 因果推理(Causal reasoning )为医学成像中的机器学习所面临的两大挑战提供新的思路
  • scarcity of high-quality annotated data 高质量标注数据不足
  • mismatch between the development dataset and the target environment开发训练数据与实际应用环境数据的不匹配
  1. 对这些问题的因果观点可以使有关数据收集、注释、预处理和学习策略的决策更透明地制定和审查,同时提供潜在偏差和缓解技术的详细分类。
  2. 结合临床实例,我们强调了建立图像及其注释之间因果关系的重要性,并为未来研究提供了逐步建议。
  • 类别因果链,图像内容X(原因)影响分类类别Y(效果),缓解边界模糊的问题
  • 解剖因果链,解剖结构Z(原因)影响器官分割S(效果),用于解决共现问题
    在这里插入图片描述

叙述

  1. 举例说明存在的两大问题:数据稀缺与数据不匹配,MRI诊断前列腺
  • 没有足够的图像和诊断标签对来训练最先进的深度学习图像分类方法
  • 临床医生可以获得大量(未标记的)常规MRI扫描。ML研究人员希望他们能够在所谓的半监督学习策略中进一步利用这些数据
  1. 进一步分析问题:
  • 注释数据的有限可用性:由于图像和确认的诊断标签之间的反阅读方向(我们稍后将详细讨论),团队可能很幸运地成功利用了未标记的数据
  • 由于不同的患者群体(如人口统计学的变化)和疾病流行率(如环境因素),特定的纳入标准–选择偏差ML开发和临床验证阶段之间的数据不匹配可能会产生重大障碍
    在这里插入图片描述
    因果推理提供了一种工具,可以以清晰透明的方式列出关于数据生成过程的任何基本假设,从而可以更容易地提前确定任何问题,并可以通过使用合适的数据收集、注释和ML策略来解决。

总结

  1. 讨论了医学成像中的因果关系为两大挑战提供新的解释,并帮助找到合适的解决方案
  2. 描述一个任务的因果结构如何对所采用的ML方法和结果分析的可靠性产生影响
  3. 意识到因果关系,相关问题如数据集转移和选择偏差,可以系统地推理出应该选择或避免哪些策略
  4. 因果图的语言提供了明确的方法来指定假设,从而能够透明地审查其合理性和有效性。这是定义感兴趣变量之间关系的一种自然方式,因为它反映了专家对数据生成和收集过程中涉及的生物和后勤过程的知识,并已成功应用于构建医疗决策模型
  5. 我们希望我们的工作能够为医学成像研究提供实用的指导,并启发新的方向

Causality matters B1

  • 在深入研究数据稀缺和数据不匹配的挑战之前,必须分析核心预测任务的因果特性。特别是,必须密切关注设计模型的输入和目标之间的关系
    因果推理

Predictive analytics in medical imaging

  1. 什么是预测模型?给定X,通过用合适的目标函数拟合统计模型,使用模型预测对应的标注信息,估计条件概率分布P(Y∣X)
  2. 对于数据术语的解释:
  • 训练集,学习模型参数
  • 验证集,验证集用于在训练过程中监控学习进度,避免对训练集过拟合
  • 测试集,量化模型在“未使用过”数据上的性能
  1. 由于数据特征的差异,通常违反了开发测试集上训练模型的性能代表了在不同环境中部署后新临床数据的性能这一假设。因此,能够在实验室和现实环境中清楚地确定和传达有关数据生成过程的基本假设是绝对重要的,这反过来可以帮助预测和缓解预测系统的故障模式

Causality in medical imaging F2

  1. 如何判断,输入图像X和目测目标Y,是因果关系还是反因果关系?答案对于问题的所有进一步因果分析至关重要,并对半监督学习的适用性产生重大影响,以及是否应优先选择生成性或区分性模型
    在这里插入图片描述
  2. 对于因果关系的定义,对于图像进行变换,标注信息会改变,因而image->annotation,另一方面,图像和目标可能会被混淆,即来自共同原因,这种关系通常与反因果的例子类似。
  3. 由于元信息在理解数据生成和收集过程中起着基础性作用,因此,只有当我们了解所获取数据的背景细节时,才有可能识别因果结构。

Worked clinical examples

examples

对于上述提出的,医学图像因果关系进行论证
在这里插入图片描述

  1. 皮肤损伤分类任务
  • 收集皮肤镜图像(X)与活检后黑色素瘤的组织病理学诊断(Y),Y是皮肤癌真实存在的金标准代表,因此可以被视为病变X视觉外观的原因。因此,这项任务是反因果的
  • 色素性皮肤病变的常规皮肤镜检查通常会导致“良性”、“可疑”或“恶性”标签。相反,对此类标签的预测将是因果关系,因为它们是通过视觉获得的
  1. 对于前列腺分割,MRI扫描图像X,通过目测完成分割Y,mask不会对image产生影响,分割为因果关系
  2. 从放射学报告中提取预测目标的情况。首先,人们可能会得出结论,报告纯粹反映了放射科医生对医学图像的阅读,因此图像导致报告然而,他们的结论可能基于额外的信息,这些信息可能比图像中的发现更重要,例如血液测试或其他诊断测试结果
  3. 在分割的情况下,注释者对肿瘤等级的了解可能会影响某些边界的轮廓,在这种情况下,可以包括从“前列腺癌”到“分割”的额外箭头。然而,这不会改变分割是图像(和诊断)的结果这一事实,因此任务仍然是因果关系

discussion

  • 这些实例强调了调查和建模整个数据生成过程的重要性,以便对数据背后的因果关系作出明智的决定。由于可能并不总是有一个单一的正确答案,因此必须清楚地传达我们所做的假设,以便对这些假设进行审查

Data scarcity

半监督学习和数据增强,解决数据稀缺的问题,从因果关系的角度来看,具有明显不同的特性。

Tackling data scarcity via semi-supervision

  1. 利用现成的未标记数据,以期产生比仅使用稀缺的注释数据更好的预测模型。输入的分布需要携带有关预测任务的相关信息,否则收集额外的未标记数据将毫无意义。
  2. 这一想法通常是根据关于数据的具体假设来表达的,这些假设可以直观地概括如下:相似的输入(在我们的例子中是图像)可能具有相似的标签,并且会自然地在输入特征空间中分组为高密度的簇假设簇间空间中的低密度区域是拟合预测模型决策边界的理想候选区域。在这种情况下,考虑大量未标记的数据和稀缺的标记数据可能会揭示这种低密度区域,并可能导致比单独使用标记数据更好的决策边界
  3. 根据原因和机制的独立性,如果预测任务是因果的(X→ Y) ,则P(X)对于P(Y|X)没有信息,由于典型的语义分割任务是因果关系的,如我们的前列腺癌示例所示,语义分割从根本上受益于未标记数据的可能性很小,在没有相应解剖信息的情况下,看到更多的原始图像并不能提供关于注释机制的新见解,这是合理的。
  4. 相反,如果是Y→ X对于皮肤损伤,这些分布可能是依赖的,半监督有成功的机会,在实践中,反因果问题比因果问题更可能符合上述SSL假设
  5. 这并不是说SSL对于因果任务完全没有用处,因为它可以带来实际的算法优势。在某些条件下,未标记的数据可以显示出调节作用,通过降低其方差,可能提高不完美模型的准确性,并且可以减少达到给定性能水平所需的标记数据量。据我们所知,目前还没有实证研究系统地研究SSL在因果医学成像任务中的功效,特别是在分割方面,因此需要进一步的工作来验证其效果。
  6. 但是全监督优于半监督,,SSL在标记集和未标记集之间的目标偏移(稍后讨论为流行偏移)下会损害分类性能。这表明,愿意应用SSL的从业者应该小心标记和未标记集合之间的潜在目标分布不匹配,例如病例和对照的比例不相等或存在不同的病理。

Tackling data scarcity via data augmentation

  • 适用于因果与反因果,提供了更多关于联合分布P(X,Y)的信息,而不仅仅是P(X),提高模型对测试环境中可能出现的变化的稳定性
  • 所有输入X,而不改变目标Y,因此它们的好处源于对条件P(X)的精确理解∣Y) ,但未提供有关P(Y)的新信息
  • 对于其他任务,如分割或定位,预测必须与输入发生类似的变化,例如应用于图像x的空间变换,如镜像、仿射或弹性变形,也应同样应用于目标y(例如空间坐标或分割掩模,如前列腺肿瘤示例)。通过共享空间结构获得关于联合分布的信息

Data mismatch

因果推理使我们能够认识到可能直接概括的特殊情况,并设计原则性策略来减少估计偏差。特别是,可以确定分布不匹配的两种不同机制:数据集偏移和样本选择偏差。了解他们的差异有助于在实践中出现这种情况时进行诊断。

Data mismatch due to dataset shift F2 F3 F4 T2

  1. 在分析数据集偏移时,有助于概念化额外的变量Z,它表示对象解剖结构的未观察到的物理现实。然后,我们将获取的图像X解释为Z(即Z)的不完美且可能依赖于区域的测量值Z,Z->X
  2. 通过明确说明未观察到的解剖结构,所提议的特征描述更为具体,并能够区分可能合并的情况
  3. 以下,我们希望这可以使我们领域的研究人员更清楚地交流数据集转移问题,更容易评估各种解决方案的适用性。
  • 图3以选择图的形式总结了基本结构(用领域指标补充的因果图)
    在这里插入图片描述
  • 表1列出了一些例子
    在这里插入图片描述
  1. 回到前列腺癌的例子,假设我们的数据集是为了研究目的而收集和注释的,使用了高分辨率的3T MRI扫描仪,并且包含了大多数年轻患者,并且训练好的预测模型将用于传统的1.5T扫描仪的临床应用。这是数据集移位的一个明显例子,首先是因为预期图像的质量不同(采集移位)。其次,因为目标人群的不同年龄分布导致前列腺大小和外观的差异(人口迁移)。此外,这两种类型的偏移都可能导致混淆(图2b):根据这些数据训练的模型可能错误地得知图像质量可以预测前列腺癌的风险。

population shift

对于这种依赖关系,用Pte(x)/Ptr(x)重新加权重要性是一种常见的缓解策略
这种方法并非没有限制,因为它需要访问Pte(x),并且可能依赖于进一步的假设,以便真正纠正P(Z)的变化

annotation shift

注释移位的情况涉及类定义的变化,即相同的数据在每个域中的标签可能不同(Ptr(Y∣X)≠ Pte(Y∣十) )。例如,参与国际项目的一些卫生中心可能会实施稍微不同的注释政策或分级标准,或雇佣具有不同专业水平的注释员(例如,高级放射学家与受训人员),这并不令人难以置信。在没有明确假设这些变化背后的机制的情况下,经过训练的模型可以预测Ptr(Y∣X) 显然,在测试环境中无法合理执行,也无法设计出明确的解决方案。可能需要对标签进行冗长而耗时的校准或(部分)重新标记,以纠正注释移位。

prevalence shift

在患病率变化下(针对反因果任务),数据集之间的差异与阶级平衡有关:Ptr(Y)≠ Pte(Y)。例如,训练和测试人群的不同倾向性,或环境因素的变化都可能导致这种情况。

如果测试类别分布Pte(Y)是先验已知的(例如,来自流行病学研究),生成模型可以重用估计的外观模型Ptr(X∣Y) (=Pte(X∣Y) 在贝叶斯规则中,对于区分模型,实例可以按pte(Y)/ptr(Y)加权,以纠正估计训练损失时的偏差。

或者,基于边际Pte(X)的更精细的解决方案是可能的,或者可以使用经过训练的预测模型的混淆矩阵来近似未知目标流行率Pte(Y)

manifestation shift

表现转移,在这种情况下,反因果预测目标(如疾病状态)在各个领域之间的解剖变化中物理表现出来, Ptr(Z∣Y) ≠ Pte(Z∣Y)

与注释偏移一样,如果对这些差异的性质没有强有力的参数假设,就无法纠正这种情况。

acquisition shift

我们讨论了由于使用不同扫描仪或成像协议而导致的采集偏移,这是医学图像中数据集偏移研究最多的原因。

缓解这一问题的典型管道涉及空间对齐(通常通过刚性登记和重新采样以达到共同分辨率)和强度标准化。

此外,日益活跃的领域适应性研究领域通过更复杂的变换来研究数据协调,例如提取领域不变表示或在成像模式之间进行转换(例如,从CT扫描合成MRI体积)。请注意,领域适应可能会失败,甚至在类别流行率发生变化的情况下是有害的

Data mismatch due to sample selection bias

  1. 样本选择是一个根本不同的过程,它也会导致系统数据不匹配。它被定义为这样一种场景,其中训练和测试队列来自相同的人群,尽管每个训练样本根据一些可能取决于受试者的选择过程S被测量(S=1)或拒绝(S=0):
  • 与标准数据集转移的主要区别在于依赖数据的选择机制(图4),而不是分布变化的外部原因(图3)。换言之,样本选择中的指标变量涉及数据收集过程中的变化,而非数据生成过程。

  • 完全随机选择只对应于均匀子抽样,即当训练数据可以被假设为忠实地代表目标人群时(Ptr(X,Y)≡ Pte(X,Y))。

  • 由于分析不会产生偏差,因此可以安全地忽略选择变量S。我们推测在实践中很少会出现这种情况,因为如果没有明确的保护措施和仔细的实验设计,优先数据收集通常是不可避免的
    在这里插入图片描述
    在这里插入图片描述

Random

  • 均匀随机抽样
  • 完全随机选择只对应于均匀子抽样,即当训练数据可以被假设为忠实地代表目标人群时(Ptr(X,Y)≡ 点(X,Y))。
  • 由于分析不会产生偏差,因此可以安全地忽略选择变量S。我们推测在实践中很少会出现这种情况,因为如果没有明确的保护措施和仔细的实验设计,优先数据收集通常是不可避免的。

Image

  • 选择可以通过两种不同的方式受每个图像的外观影响
  1. 可以根据解剖特征选择subject,将图像X作为解剖Z的proxy,这与群体移动有类似的含义。

  2. 或者,选择标准可能与图像质量有关(例如,排除有噪声、对比度差或伪影的扫描),这类似于采集偏移

  • 如果选择完全基于图像(X→ S),我们可以利用条件独立性S⫫ Y∣X、 这意味着预测关系是可直接恢复的,即Pte(Y∣X)≡ Ptr(Y∣X)
  • 然而,在一个学习场景中,目标函数仍然是有偏差的,可以采用方法来缓解相应的数据集移位情况
  • 回过头来看皮肤病变的例子,只有在皮肤镜检查引起怀疑的情况下,患者才会被转诊进行活检。由于纳入本研究是依赖于图像的,因此带有真实活检标签的数据集不能代表色素性皮肤病变的总体分布

Target

  • 当选择仅依赖于目标时(Y→ S) ,我们有Pte(X∣Y)≡ Ptr(X∣Y) 它可以被视为流行趋势的转变。这通常是由入院、临床试验中的招募或选择标准或注释质量控制等因素造成的。
  • 值得注意的是,ML从业者应该小心,它也可能作为某些培训策略的副作用出现,例如重新平衡类或为分割选择图像patch(例如,仅拾取包含病变像素的patch)。

Joint

*当选择变量S是X和Y(或X和Y的原因)的共同影响时,样本选择还可能引入虚假关联:对S的隐式条件作用会解除X和Y之间不希望出现的因果路径(见方法)

  • 这是一种被称为选择偏差的经典情况(比照伯克森悖论),如果没有对精确选择机制的假设,恢复就更加困难。一般来说,它需要控制附加变量,以通过对撞机S上的调节消除X对Y的间接影响

Discussion T3 F5

总结贡献

  1. 本文利用强大的因果推理框架,对医学成像机器学习的关键挑战提供了一个新的视角。我们的因果考虑不仅以统一的方式对数据稀缺和数据不匹配的重要问题提供了新的认识,而且所提出的分析有望成为开发新解决方案的指南。也许令人惊讶的是,因果理论还表明,语义分割的共同任务可能无法从根本上通过半监督从未标记的图像中获益。这个可能有争议的结论可能会促使实证研究验证这种方法的可行性和实际局限性。
  2. 我们强调,我们的贡献只是将因果关系纳入医学图像分析的第一步。我们向大家介绍纯粹的因果推理语言,希望这将促进充分利用因果理论的新的研究方向。具体而言,因果推理和因果发现的努力在医学成像领域迄今为止基本上尚未探索。
  3. 除了支持新的研究方向外,将因果推理纳入医学图像分析也符合利益相关者对该领域责任报告需求的日益认识
  4. 涉及机器学习领域内的平行倡议,特别是在公平、问责制和透明度方面。因果推理形式主义也被证明特别适合在其他情况下表达和解决不公平问题(例如社会偏见)和数据集移位
  5. 本文的目标是向医学成像界介绍因果图的语言,并演示它如何阐明预测建模中的常见问题。虽然因果推理本身可能无法解决任何数据稀缺或不匹配问题,但它为表达有关数据的假设提供了清晰准确的框架。以因果图的形式透明地提出这些假设,使其他研究人员能够立即识别它们,因此更容易确认或争议。真正的挑战在于确定这些假设,因为它们往往是不明确或模棱两可的
  6. 为了促进这项任务,我们在表3中提供了我们的建议的逐步总结,图5给出了一个通用的结构图,从中可以调整大多数典型的工作流。然后,读者可以参考其他表格,以帮助确定他们自己的图表中的组件以解决当前问题。我们相信,建立数据集的完整因果故事将鼓励分析师更彻底地考虑潜在的潜在偏差,并且它可能像TRIPOD清单一样,导致对预测模型研究的更全面理解、进行和分析

Table 3 Step-by-step recommendations

  1. 收集有关数据收集和注释过程的元信息,以重建数据集的完整过程
  2. 确定预测因果方向:图像是否导致预测目标,反之亦然?如果注释稀缺且图像X→ 目标Y,半监督学习可能是徒劳的,而数据增强仍然是一个可行的选择
  3. 确定数据集之间不匹配的任何证据(表1)。在适用的情况下,重要性加权是一种常见的缓解策略;请参阅文本中的进一步具体建议
  • 如果是因果关系(图片→ target):人口迁移,注释迁移
  • 如果是反因果(target→ 图像):流行转移,表现转移 在这里插入图片描述
  1. 验证图像采集中预期的差异类型(如果有)考虑应用数据协调技术和领域调整(如果测试图像可用)

  2. 确定数据收集是否与感兴趣的人群有关,以及选择是否基于图像、目标或两者(表2)。参考数据集移位指南,以缓解由此产生的偏差
    在这里插入图片描述

  3. 绘制完整的因果图,包括假设的方向、移位和选择

Fig. 5 A ‘scaffold’ causal diagram summarising typical medical imaging workflow

在这里插入图片描述

Methods

Fundamentals of causal reasoning

根据所使用的因果信息,学习任务可大致分为三类:
(i)预测,其中观察到的数据用于推断未观察到的变量的值,例如图像分类;
(ii)干预措施,研究人员研究强制变量达到某一值的影响,例如药物测试的随机对照试验(RCT);
(iii)反事实分析,其中观察到的数据与结构因果模型相结合,用于回答形式上的问题,“如果我的个人接受了治疗T,会发生什么?”
虽然大多数人都熟悉RCT或科学实验中的因果推断,但因果信息即使在某些纯粹的预测任务中也是至关重要的,正如我们在医学成像中讨论的那样。

  • 在上面的例子中,正确的图形模型应该是A→ B、 通过专业领域知识解决 domain knowledge。然而,如果只提供医学图像和转诊的观察数据,从纯粹的统计角度来看,很难确定a→ B或B→ A、 如果收集的数据是分别操纵A或B的两个实验的结果,那么仍然可以确定哪一个是正确的关系。从数据中确定因果关系的存在和方向是因果发现的领域,这是一个极具挑战性和活跃的研究领域,但超出了本文的范围

Causal graphical models

Building a causal diagram

Interpreting causal diagrams

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值