DeepOpht 论文阅读笔记
文章目录
部分关键词注释:
retinal 视网膜的
Abstract
- 目标和背景: 作者提出了一种基于人工智能的方法,旨在改善传统的视网膜疾病治疗流程,并帮助视网膜医生提高诊断效率和准确性。
- 方法: 提出的方法包括一个基于深度神经网络(DNN)的模块,其中包括一个用于识别视网膜疾病和生成临床描述的模块,以及一个DNN视觉解释模块。
- 数据集: 为了训练和验证DNN模块的有效性,作者提出了一个大规模的视网膜疾病图像数据集,并提供了由视网膜医生手动标记的视网膜图像数据集作为地面真相。
- 效果验证: 通过实验证明,提出的方法在定量和定性上都表现出有效性。该方法能够生成具有临床相关性的有意义的视网膜图像描述和视觉解释。
- 项目地址: DeepOpht
1. Introduction
本文的贡献:
- 提出了基于AI技术生成视网膜图像的医学报告的方法;
- 构建了一个大规模视网膜疾病图像数据集DeepEyeNet(DEN) ,包含15709个图像,用于训练和验证模型两个模块(RDI, CDG)的数据集;
- 提供了另一个由300个视网膜图像
方法概述
在该文章中,作者团队提出了一种基于AI技术,基于视网膜图像自动生成医学报告的方法,如图1所示。
该方法的目标旨在优化视网膜疾病诊断流程,如图2所示。上下部分是传统的诊断流程和使用DNN优化的诊断方法。传统的方法需要医生的大量参与,作者团队基于POC
概念引入AI技术对诊断过程的效率进行提升。如图1所示,模型两个模块,包括基于DNN的模块和DNN视觉解释器。基于DNN的模块输出疾病类别“A”以及临床描述,视觉解释模块将基于DNN的模块中的信息对分类任务进行可视化,这一部分将在§4 Methodology中详细阐述。
本文提出的方法主要思想是利用基于深度学习的模型,包括有效的视网膜疾病识别器和有效的临床描述生成器实现部分治疗过程的自动化。以此来使治疗过程更加高效。
数据集
为了训练模型以及验证RDI和CDG两个模块的性能,作者团队引入了一个大规模视网膜疾病图像数据集DeepEyeNet(DEN) 。使用眼外科医生手动标注的视网膜图像数据库作为 ground truth,以定性表明模型的有效性。
该数据集的作用是展示我们深度模型的激活图与临床视网膜医生认为与已确定疾病相关联的图像特征是一致的。数据集示例如下。
2. Related Work
作者将相关的任务概括为视网膜疾病分类(retinal disease classification)、图像字幕(image captioning)、神经网络视觉解释(neural networks visual explanation) 以及 视网膜数据集比较(retinal dataset comparison)。
2.1 Retinal Disease Classification
视网膜疾病分类(Retinal Disease Classification)是一种医学图像处理任务,旨在使用计算机算法对眼底图像中的视网膜疾病进行分类和识别
传统的视网膜疾病分类通常由医生阅片并进行分类,这一部分介绍了与视网膜疾病诊断相关的三种常用且重要的成像方法,分别是光学相干断层扫描(OCT)、荧光血管造影(FA)和彩色眼底照相(CFP)。具体内容包括:
- 光学相干断层扫描(OCT):
- OCT作为新兴生物医学成像技术,能够提供高分辨率和非侵入性的实时成像。
- OCT通常用于显示视网膜结构,以及先前提出的分割和检测六个不同视网膜层的算法。
- 荧光血管造影(FA):
- FA被用于了解视网膜病变的病理生理过程,特别是在青光眼素反应因子(AntiVEGF)治疗后的视网膜病变。
- 彩色眼底照相(CFP):
- CFP作为对训练有素的医疗专业人员而言是一种简单且经济有效的技术。
- 图像预处理是CFP自动分析中的一个重要问题,引用了一个方法以减少因视网膜图像非均匀照明引起的暗角效应。
2.2 Image Captioning
图像字幕(Image Captioning)是一种计算机视觉任务,其目标是使计算机能够自动生成对图像内容的自然语言描述。
这个任务要求模型不仅能够识别图像中的对象、场景和关系,还需要能够生成与图像内容相关的语言描述。
最近(当时是2020年)提出的一个计算机视觉的新任务是图像字幕(image captioning ),在这个领域的研究方向主要如下:
- 将视觉和语言信息嵌入同一个多模态空间中;
- 利用自然语言模型,将与图像的某个部分相关的单词组合起来生成给定图像字幕;
- 使用卷积神经网络(CNN)提取图像特征,并将其作为递归神经网络(RNN)的第一个时间步的输入,以生成给定图像的字幕。
- 使用深度残差关注层生成图像字幕(先生成后优化);
关于评估图像字幕的性能,研究方向如下:
- 引入策略梯度方法,通过优化CIDEr 和SPICE 的线性组合来训练模型;
- 对于可见对象预测类别标签,并通过基于强化学习和采样的损失函数学习生成字幕。
在这篇文章中,作者强调了利用关键词可以提高生成模型的推理能力。
2.3 Neural Networks Visual Explanation
神经网络视觉解释"(Neural Network Visual Explanation)指的是通过可视化技术和解释性方法,将神经网络对图像或其他输入数据的处理过程可视化和解释出来的过程。这旨在提供一种直观的方式,使人们能够理解神经网络是如何对输入进行处理、作出决策,并理解模型中学到的特征和模式。
这一部分介绍了一些视觉解释的方法,主要就是CAM、端到端监督和多模态数据可视化。
- Class Activation Mapping (CAM): 使用分类训练的CNN来学习如何不借助边界框定位对象;在作者的前期工作中曾使用CAM 技术来可视化视网膜图像上检测到的对象类别。
- Gradient-weighted Class Activation Mapping (Grad-CAM): 用于使基于CNN的模型透明,通过生成视觉解释来解释模型的特征。
- Grad-CAM++: 基于Grad-CAM提出了一种通用方法,在对象定位方面提供比Grad-CAM更好的视觉解释,能够更好地解释单个图像中多个对象实例的发生。
- End-to-End Model with Supervision: 提出了一种不同于前述方法的方法,该方法通过建立端到端模型,直接在视觉解释上提供监督,以解释网络的操作。
- Multimedia Data Visualization: 引入了一些针对多媒体数据(如文本和图像)的可视化方法,包括基本网格、相似性空间、基于相似性的、电子表格和基于线程的概念。
在本文的工作中,作者利用CAM来可视化深度模型的激活图,以展示这些激活图与眼科医生视为与已确定疾病相关联的图像特征的一致性。此外,他们使用类似于静态电子表格概念的表格概念来可视化他们的医学报告。
2.4 Retinal Dataset Comparison
这段话总结了多个已经存在的用于研究视网膜疾病的数据集,包括它们的来源、特点以及用途。一些被提到的数据集包括 DRIVE、IDRiD、DRIONS-DB、FIRE、Drishti-GS、MESSIDOR、DIARETDB0、DIARETDB1、INSPIRE-AVR、ONHSD、REVIEW、ROC、e-ophtha、HRF、RODREP、CHASE-DB1、STARE、VARIA 和 VICAVR 。这些数据集涵盖了不同类型的视网膜图像,包括正常情况和不同疾病病变的图像。
整体而言,这些数据集对于深度学习在视网膜疾病诊断和研究中的应用提供了重要的资源。
3. Dataset Introduction and Analysis
在这一部分中,作者介绍了数据集的视网膜图像种类、标签以及一些数据统计。在专业眼科医生的指导下,根据临床定义和专业知识构建了按照265中独特视网膜症状分类的DEN 数据集。
-
数据集构成: DEN 数据集包含两类视网膜图像(灰度FA和彩色CFP),总计5,709张图像(1,811张 FA 和 13,898张 CFP)。采用 6 : 2 : 2 6:2:2 6:2:2划分训练集、验证集和测试集(对应数量为9425、3142 和 3142)。
灰度 FA(Fluorescein Angiography)和彩色 CFP(Color Fundus Photography)是两种常见的眼底图像类型,用于诊断和研究视网膜疾病。
- 灰度 FA(Fluorescein Angiography):
- 定义: 荧光素铵注射后拍摄的图像,用于显示视网膜和脉络膜血管的血流情况。
- 特点: 这种图像以黑白灰度呈现,通过注射荧光素铵等荧光染料,医生可以观察血管的充血、泄漏和血流速度,从而评估视网膜血管系统的状况。
- 应用: 在糖尿病性视网膜病变等疾病的诊断和治疗过程中,灰度 FA 提供了重要的血管信息,帮助医生了解病变的程度和位置。
- 彩色 CFP(Color Fundus Photography):
- 定义: 使用彩色相机拍摄的眼底照片,显示视网膜和眼底的颜色和结构。
- 特点: 这种图像以彩色形式呈现,捕捉了眼底不同结构和病变的颜色信息,如黄斑、视神经盘等。
- 应用: 彩色 CFP 在眼科诊断中广泛应用,用于检测各种眼底疾病,包括黄斑变性、青光眼、视网膜脱离等。它也是许多眼科研究和临床试验的重要工具。
- 灰度 FA(Fluorescein Angiography):
-
标签信息: 每张视网膜图像有三个相应的标签,包括疾病名称、关键词和临床描述。数据集中包含 265 种不同的视网膜疾病,关键词和临床描述标签的数量分别为 15,709 个。这些标签都由经验丰富的视网膜专家及眼科医生定义。
-
词长分布: 通过图表展示了关键词和临床描述标签的词长分布,表明数据集中存在具有挑战性的长词长度,大致在5~10词。但是由于最长的关键词长度 > 15 >15 >15 且最长的描述长度 > 50 >50 >50 (相比之下VQA 的最大长度为10左右)。
-
词云可视化: 通过 Venn-style 词云可视化展示了临床描述标签的结果,如图5所示。突出了数据集中的抽象概念,使其更具挑战性。
但是在Github 项目中获取的词云与上述不太一样,如下图所示,可以看到其中还是以医学词语为主。