Title
题目
Counterfactual Causal-Effect Intervention for Interpretable Medical Visual Question Answering
可解释医学视觉问答的反事实因果干预
01
文献速递介绍
深度学习的进步在计算机视觉、自然语言处理和信息检索领域成功地取得了最先进的(SOTA)成果。在医疗行业,深度学习技术促成了许多重要的应用。例如,在自然语言处理方面,利用患者临床记录进行预测分析的几项引人注目的研究已经出现。视觉问答(VQA)是一项计算机视觉和自然语言处理中的复杂任务,旨在回答与给定图像相关的自然语言问题。在通用领域,深度学习在VQA方面取得了巨大成功。将通用VQA迁移到医疗领域催生了一项新的下游任务:医学视觉问答(VQA-Med)。在VQA-Med任务中,使用患者的放射扫描(X射线、磁共振成像(MRI)和CT)代替通用领域的标准图像,并配有临床相关的问答(QA)对。VQA-Med技术可以帮助医生提高诊断效率,并帮助患者理解他们的病情。然而,VQA-Med具有挑战性,因为它需要对专业医学图像和文本QA对进行深入理解和高水平交互,以生成合理且可信的答案。
Abstract
摘要
医学视觉问答(VQA-Med)是一项具有挑战性的任务,涉及回答与医学图像相关的临床问题。然而,大多数当前的VQA-Med方法忽略了特定病变或异常特征与答案之间的因果关系,同时也未能为其决策提供准确的解释。为了探索VQA-Med的可解释性,本文提出了一种基于反事实因果干预策略的新型CCIS-MVQA模型。该模型由用于图像特征提取的改进ResNet、用于问题特征提取的GloVe解码器、用于视觉和语言特征融合的双线性注意网络以及用于生成可解释性和预测结果的可解释性生成器组成。所提出的CCIS-MVQA引入了一种层级相关传播方法,以自动生成反事实样本。此外,CCIS-MVQA在整个训练阶段应用反事实因果推理,以增强可解释性和泛化能力。在三个基准数据集上的大量实验表明,所提出的CCIS-MVQA模型优于最先进的方法。生成了足够的可视化结果来分析CCIS-MVQA的可解释性和性能。
Method
方法
The VQA-Med task is a multi-class classification problem, and we consider an image-question pair