【VQA文献阅读】VQA-Med: Overview of the Medical Visual Question Answering Task at ImageCLEF 2019

VQA-Med: Overview of the Medical Visual Question Answering Task at ImageCLEF 2019

文章地址:http://ceur-ws.org/Vol-2380/paper_272.pdf

Abstract

This paper presents an overview of the Medical Visual Question Answering task (VQA-Med) at Image CLEF 2019. Participating systems were tasked with answering medical questions based on the visual content of radiology images. In this second edition of VQA-Med, we focused on four categories of clinical questions: Modality, Plane, Organ System, and Abnormality. These categories are designed with different degrees of difficulty leveraging both classification and text generation approaches. We also ensured that all questions can be answered from the image content without requiring additional medical knowledge or domain-specific inference. We created a new dataset of 4,200 radiology images and 15,292 question-answer pairs following these guidelines. The challenge was well received with 17 participating teams who applied a wide range of approaches such as transfer learning, multi-task learning, and ensemble methods. The best team achieved a BLEU score of 64.4%and an accuracy of 62.4%. In future editions, we will consider designing more goal-oriented datasets and tackling new aspects such as contextual information and domain-specific inference.

本文在ImageCLEF 2019上概述了医学视觉问题回答任务(VQA-Med)。参与系统的任务是根据放射图像的视觉内容回答医疗问题。在这第二版的VQA-Med,我们集中在四个类别的临床问题:模式,平面,器官系统,和异常。利用分类和文本生成方法,这些类别的设计具有不同的难度。我们还==确保所有问题都可以从图像内容中得到回答,而不需要额外的医学知识或特定领域的推理。==我们根据这些指南创建了一个新的数据集,包含4200张放射图像和15292个问答对。这项挑战受到了17个参与小组的欢迎,他们采用了广泛的方法,如迁移学习、多任务学习和集成方法。最好的团队达到了64.4%的BLEU分数和62.4%的准确性。在未来的版本中,我们将考虑设计更多面向目标的数据集,并处理新的方面,如上下文信息和特定领域的推理。

Keywords

Visual Question Answering, Data Creation, Deep Learning, Radiology Images, Medical Questions and Answers

视觉问答、数据集创建、深度学习、放射学图像、医学问答

1 Introduction

人工智能的最新进展为临床决策支持提供了新的机会。特别是,医学图像自动解释的相关解决方案由于其在图像检索和辅助诊断方面的潜在应用而吸引了越来越多的兴趣。此外,能够理解临床图像并回答与其内容相关的问题的系统可以支持临床教育、临床决策和患者教育。

从计算的角度来看,这个视觉问答(VQA)任务提出了一个结合了自然语言处理和计算机视觉技术的令人兴奋的问题。近年来,基于新的开放域数据集[3,8]和方法[23,7]的VQA研究取得了长足的进展。然而,在医学等专业领域处理VQA时,有一些挑战需要解决。Ben Abacha等人[4]分析了医学视觉问题回答所面临的一些问题,并描述了四个关键挑战==(i)设计面向目标的VQA系统和数据集==,(ii)对临床问题进行分类,(iii)选择(临床)相关图像,以及(iv)捕捉背景和医学知识。受视觉问答在一般领域的成功启发,我们在ImageCLEF 2018上进行了一项试点任务(VQA-Med 2018),重点关注医学领域[9]的视觉问答。基于最初版本的成功,我们在今年继续这项任务,加强了对精心策划和更大数据集的关注。在2019 VQA-Med中,我们选择了放射学图像和医学问题==(i)只询问一个元素(ii)可以从图像内容中回答。我们主要针对四类不同难度的问题:情态题、平面题、器官系统题、异常题。例如,前三类可以作为一个分类任务来处理,而第四类(异常)提出了一个答案生成问题。我们故意以这种方式设计数据来研究不同方法在这两个方面的行为和性能。==与开放域VQA数据集[3,8]中常见的答案由一个单词或数字(如yes, no, 3, stop)组成的方法相比,这种设计更适合于临床决策支持。在下一节中,我们将用更多细节和示例展示任务描述。我们在第3节中描述数据创建过程和VQA-Med-2019数据集。我们在第4节和第5节分别提出评估方法和讨论挑战结果。

2 Task Description

与去年一样,VQA-Med 2019的参与系统的任务是根据视觉图像内容回答医学图像附带的临床相关问题。在2019年的VQA-Med中,我们特别关注放射学图像和四个主要类别的问题:形态、平面、器官系统和异常。我们主要考虑的医学问题只涉及一个方面:例如,“这个核磁共振成像主要显示的器官是什么?”、“这张乳房x线照片是在哪架飞机拍的?”,“这是t1加权,t2加权,还是flair图像?”,“超声波检查最令人担忧的是什么?”)。所有选定的问题都可以从图像内容中得到回答,而不需要额外的领域特定推理或上下文。包括这些方面在内的其他问题将在未来版本的挑战中考虑,例如:“这种方式对孕妇安全吗?”、“什么位于右侧半膈的正下方?”,“在这个平面上可以看到什么?”、“你如何测量肾脏的长度?”

3 VQA-Med-2019 Dataset

==通过(i)应用几个过滤器来选择相关图像和相关注释,以及(ii)创建模式来生成问题及其答案,我们自动构建了训练、验证和测试集。测试集由两名医生手动验证。==数据集是公开的4。图1给出了来自VQA-Med-2019数据集的示例。

3.1 Medical Images

我们从MedPix5数据库中根据图片说明、形态、平面、位置、类别和诊断方法筛选出相关的医学图像。==我们只选择根据图像做出诊断的病例。==所选诊断方法的例子:CT/MRI影像、血管造影、特征性影像外观、x线片、影像特征、超声、放射诊断。

3.2 Question Categories and Patterns

我们针对最常见的问题类别:形态、平面、器官系统和异常(参考文献:VQA-RAD)。

1) Modality

Yes/No, WH and closed questions. Examples:
– was gi contrast given to the patient?
– what is the mr weighting in this image?
– what modality was used to take this image?
– is this a t1 weighted, t2 weighted, or flair image?

2) Plane:

WH questions.
Examples:
– what is the plane of this mri?
– in what plane is this mammograph taken?

3) Organ System:

WH questions.
Examples:
– what organ system is shown in this x-ray?
– what is the organ principally shown in this mri?

4) Abnormality:

Yes/No and WH questions.
Examples:
– does this image look normal?
– are there abnormalities in this gastrointestinal image?
– what is the primary abnormality in the image?
– what is most alarming about this ultrasound?

Planes (16): Axial; Sagittal; Coronal; AP; Lateral; Frontal; PA; Transverse;
Oblique; Longitudinal; Decubitus; 3D Reconstruction; Mammo-MLO; Mammo-
CC; Mammo-Mag CC; Mammo-XCC.
Organ Systems (10): Breast; Skull and Contents; Face, sinuses, and neck; Spine
and contents; Musculoskeletal; Heart and great vessels; Lung, mediastinum,
pleura; Gastrointestinal; Genitourinary; Vascular and lymphatic.
Modalities (36):
– [XR]: XR-Plain Film
– [CT]: CT-noncontrast; CT w/contrast (IV); CT-GI & IV Contrast; CTA-CT
Angiography; CT-GI Contrast; CT-Myelogram; Tomography
– [MR]: MR-T1W w/Gadolinium; MR-T1W-noncontrast; MR-T2 weighted;
MR-FLAIR; MR-T1W w/Gd (fat suppressed); MR T2* gradient,GRE,MPGR,
SW AN,SWI; MR-DWI Diffusion Weighted; MRA-MR Angiography/Venography;
MR-Other Pulse Seq.; MR-ADC Map (App Diff Coeff); MR-PDW Proton
Density; MR-STIR; MR-FIESTA; MR-FLAIR w/Gd; MR-T1W SPGR; MR-
T2 FLAIR w/Contrast; MR T2* gradient GRE
– [US]: US-Ultrasound; US-D-Doppler Ultrasound
– [MA]: Mammograph
– [GI]: BAS-Barium Swallow; UGI-Upper GI; BE-Barium Enema; SBFT-
Small Bowel
– [AG]: AN-Angiogram; Venogram
– [PT]: NM-Nuclear Medicine; PET-Positron Emission
Patterns: For each category, we selected question patterns from hundreds of
questions naturally asked and validated by medical students from the VQA-RAD
dataset [13].

模式:对于每个类别,我们从VQA-RAD数据集[13]中,从数百个医科学生自然提问并验证的问题中选择问题模式。

在这里插入图片描述

3.3 Training and Validation Sets

训练集包括3,200张图片和12,792对问答(QA),每张图片有3到4个问题。表1列出了每个类别中最常见的答案。验证集包括500张医学图像和2000对QA对。

3.4 Test Set

==一名医生和一名放射科医生对测试答案进行了手动双重验证。==共有33个答案被更新:(i)指出可选部分(8个答案),(ii)增加其他可能的答案(10),或(iii)修正自动答案。15个答案被更正,相当于考试答案的3%。修正后的答案分别为:异常(8/125)、器官(6/125)、平面(1/125)。对于异常问题,矫正主要是改变推断出的诊断,通过图像中的问题。我们期望使用相同的自动数据创建方法生成的训练和验证集具有类似的错误率。测试集由500张医学图像和500个问题组成。

在这里插入图片描述

4 Evaluation Methodology

对参与2019 VQA-Med任务的系统的评估基于两个主要指标:准确性和BLEU。我们==使用了来自通用域VQA6task的精确度量的修订版,它严格考虑参与者提供的答案和地面真相答案的精确匹配。==我们计算总体准确性分数以及每个问题类别的分数。为了补偿精度度量的严格性,BLEU[15]用于捕获系统生成的答案和ground truth答案之间基于单词重叠的相似性。BLEU度量的整体方法和资源基本上与去年的任务[9]相似。

5 Results and Discussion

在104个在线注册中,61个参与者提交了签署的最终用户协议表格。最后,17个小组提交了总共90次测试,表明了他们对VQA-Med 2019任务的显著兴趣。图2显示了17个参与团队的结果。整体成绩最好的是翰林队,实现了0.624准确性和0.644 BLEU评分。表2给出了所有参与者的概述和提交的runs7的数量。表3到表4显示了参与系统的总体结果,这两个指标按分数降序排列(越高越好)。ImageCLEF 2019 lab overview论文[11]描述了每次运行的详细结果。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

与去年类似,参与者主要使用深度学习技术来构建他们的VQA-Med系统。特别是,性能最佳的系统利用深度卷积神经网络(CNNs),如VGGNet[18]或ResNet[10],以及各种池化策略,如全局平均池化来编码图像特征,以及基于变压器的架构,如BERT[6]或循环神经网络(RNN)来提取问题特征。然后,利用不同类型的注意机制,结合多模态分解双线性(MFB)池化或多模态分解高阶池化(MFH)等池化策略,结合多模态特征和双线性变换,最终预测可能的答案。

表3中对问题类别-wise8准确性的分析表明,总的来说,参与系统在回答模态问题时表现良好,其次是平面和器官问题,因为这些问题类别的每一个可能的答案类型都是有限的。然而,对于异常类型的问题,由于开放式问题的潜在复杂性以及可能由于精度度量的严格性,系统在精度方面表现不佳。为了补偿准确性的严格性,我们计算了BLEU分数,以了解系统生成的答案和地面真实答案的相似性。今年系统较高的BLEU分数(最佳BLEU为0.631,2018年为0.162)进一步验证了提出的基于深度学习的VQA任务模型的有效性。总的来说,今年获得的结果清楚地表明,与去年的任务相比,所提供的数据集的健壮性。

6 Conclusions

我们展示了2019 VQA-Med任务、新数据集、参与系统和官方结果。为了确保问题是自然措辞的,我们使用医学生提问的模式来构建与临床相关的问题,这些问题属于我们的四个目标类别。我们根据面向目标的指导方针为challenge9创建了一个新数据集,并涵盖了不同难度的问题。迁移学习、多任务学习、集成方法以及分类模型和答案生成方法相结合的混合方法等方法已得到广泛应用。最佳团队的BLEU得分为0.644,整体准确率为0.624。在未来的版本中,我们将考虑更复杂的问题,这些问题可能包括上下文信息,或者需要特定领域的推理才能得到正确的答案。

Acknowledgments

这项工作得到了国立卫生研究院美国国家医学图书馆校内研究项目的支持。我们感谢MedPix团队的James G. Smirniotopoulos医生和Soumya Gayen医生的支持。

  • 5
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值