糖尿病视网膜病变研究的基准：分割、分级和可转移性笔记

麻花地

已于 2022-06-28 11:32:06 修改

阅读量5.5k

点赞数 5

分类专栏：深度学习深度学习框架经典论文阅读文章标签：人工智能深度学习计算机视觉

于 2022-05-24 14:39:29 首次发布

本文链接：https://blog.csdn.net/charles_zhang_/article/details/124838732

版权

深度学习同时被 3 个专栏收录

75 篇文章

订阅专栏

经典论文阅读

75 篇文章

订阅专栏

深度学习框架

52 篇文章

订阅专栏

糖尿病视网膜病变研究的基准：分割、分级和可转移性笔记

A Benchmark for Studying Diabetic Retinopathy: Segmentation, Grading, and Transferability

Abstract

糖尿病患者有患糖尿病视网膜病变（DR）的风险。当高血糖水平导致视网膜血管受损时，就会发生这种疾病。由于深度学习的巨大成功，计算机辅助DR诊断已成为DR早期诊断和严重程度分级的一个有前途的工具。然而，由于缺乏具有一致性和细粒度注释的训练数据，大多数当前的DR诊断系统并没有为眼科医生实现令人满意的性能或可解释性。为了解决这个问题，我们构建了一个包含2842幅图像的细粒度注释DR数据集（FGADR）。具体来说，该数据集有1842张图像，带有像素级DR相关病变注释，1000张图像带有图像级标签，由六名委员会认证眼科医生进行分级，评分员内部一致。提议的数据集将支持对DR诊断的广泛研究。此外，我们建立了三个评估基准任务：1。DR病灶分割；2.通过联合分类和分割进行DR分级；3.转移学习用于眼部多疾病识别。此外，在第三个任务中引入了一种新的归纳迁移学习方法。在我们的FGADR数据集上使用不同最先进的方法进行了广泛的实验，这些数据集可以作为未来研究的基线。我们的数据集将发布在https://csyizhou.github.io/FGADR/.

**关键词：**糖尿病视网膜病变、病变分割、分级和转移学习

I. INTRODUCTION

糖尿病性视网膜病变（DR）是一种由高血糖和高血压引起的眼病，可损害眼底血管（视网膜）并导致失明。三分之一的糖尿病患者患有某种程度的糖尿病视网膜病变，每个糖尿病患者都有患糖尿病的风险。对眼科医生来说，准确地对糖尿病视网膜病变进行分级是一项耗时的工作，对眼科初学者来说也是一项重大挑战。因此，开发糖尿病视网膜病变的自动诊断系统具有显著的潜在益处。

根据国际协议[1]，[2]，DR的严重程度可分为五个阶段（0-4）：无视网膜病变（0）、轻度非增殖性DR（NPDR）（1）、中度NPDR（2）、重度NPDR（3）和增殖性DR（4）。分级通常取决于不同相关病变表现和并发症的数量和大小。图1提供了两个例子，比较了一个正常视网膜病变和一个包含多个病变的糖尿病视网膜病变。例如，微动脉瘤（MAs）是DR最早的临床可见证据。这些局部毛细血管扩张表现为红色小点。中度NPDR除了微动脉瘤外，还包括“斑点”或“斑点”状出血（HEs）。**硬渗出物（Ex）**是一种明显的黄白色视网膜内沉积物，可以是小斑点，也可以是较大的斑块。它们主要在黄斑区观察到，因为脂质结合并延伸到中央凹。软性渗出物（SE），有时也称为“棉絮斑”（CWS），是神经纤维层的灰白色斑点，或毛细血管前闭塞。它们通常出现在严重的DR阶段。此外，视网膜内微血管异常（IRMA）是毛细血管扩张和新的视网膜内血管形成的区域。一旦出现大量的IRMA，就可以预测增殖前DR阶段。新生血管（NV）是DR增殖的一个重要因素。随着视网膜变得更加缺血，新的血管可能会从视盘或视网膜周围出现。因此，识别这些相关区域有助于DR分级。

在过去的十年里，计算机视觉和基于深度学习的算法在很大程度上得到了探索，为医学成像研究界做出了贡献。随着深度卷积神经网络（CNN）的成功发展，图像分类[3]、目标检测[4]、语义分割[5]和图像合成[6]框架都已被用于分析医学图像，以解决不同的任务。为了研究糖尿病视网膜病变[7]，以前的大多数研究大致可分为三个重要分支。首先，最有价值的任务是预测糖尿病视网膜病变的进展（即分级[1]，[8]–[12]）。Gulshan等人[1]采用Inception-v3架构来训练DR分级模型，其目的是直接学习局部特征，而不是明确检测病变。在[11]中，一个自动图像级DR分级系统建立在多个训练有素的深度学习模型的集合。其中一些深层模型还与AdaBoost结合，以减少每个模型的偏差。其次，还对基于病变的糖尿病视网膜病变检测[13]–[22]进行了研究。杨耀安。等人[13]提出通过设计两级深卷积神经网络来整合病变检测和分级。具体来说，首先训练一个局部网络，将斑块分为不同的病变，然后第二个网络预测DR的严重程度等级。在[14]中，提出了一个放大网络来学习突出异常区域的注意图，然后以全局和局部方式提供DR的分级等级。第三，已经提出了几种用于合成视网膜图像的图像生成方法[23]–[26]。该技术可用于数据扩充，以解决DR训练数据中的不平衡问题。Niu等人[24]提出在给定病理描述符和血管分割模板的情况下合成眼底图像。DRGAN在[23]中提出，试图通过操纵任意分级和病变信息来生成具有不同分级的高分辨率视网膜图像。

目前，DR计算机辅助诊断系统发展的两大障碍是有限的训练数据和不一致的注释。虽然有一些公共DR数据库，如[27]–[30]，但大多数数据库只包含图像级别的标签，注释通常不准确。构建具有高质量和细粒度注释的大型数据集将对DR诊断的研究做出重大贡献。例如，DR相关病变的像素级注释对于开发基于病变的分割模型以及为眼科医生培训更可解释的分级模型非常有益。此外，如果提供了大量病变的细粒度注释，这些丰富的信息可以用来提高表征学习的能力，以及使模型能够在没有注释的情况下转移到其他眼部疾病识别任务中。因此，在本文中，我们提出了一个研究糖尿病视网膜病变诊断系统的新基准。介绍了一个大像素级带注释的DR数据集，并设置了三个任务来评估不同的方法。本基准工作的主要贡献如下：

1.我们构建了一个带有细粒度注释的DR数据集，名为FGADR，包含1842张眼底图像，包括像素级病变注释和图像级分级标签，以及1000张仅带有分级标签的图像。基于该数据集，可以广泛探索语义分割、图像分类、转移学习、监督和半监督学习等算法，以推进DR，甚至更广泛的医学成像领域的研究。

2.建立了三个任务来评估我们新提出的数据集上的不同方法。进行了大量的实验和分析。首先，研究了基于像素级病变标注的医学图像分割方法。其次，研究了联合分类和分割框架，通过利用更多可解释的病变分割结果来提高DR分级性能。此外，还利用我们的数据集研究了转移学习在其他眼部多疾病识别中的应用。

3.为了评估第三个任务，我们还提出了一个新的归纳迁移学习方法提高了眼部多疾病识别的性能。设计了多尺度传输连接和特定领域的对抗适应模块，以在源域和目标域之间架起任务学习的桥梁。实验在我们的FGADR数据集和ODIR-5K数据集上进行[31]。

II. DATASETS

大多数现有的DR数据集只有图像级别的分级标签，很少提供基于像素级别病变的注释。表一总结了一些与DR相关的常用数据集。在这些数据集上训练的模型只能用于预测严重程度，而不能为眼科医生解释为什么眼底图像被分级为某一级别。因此，我们基准测试的主要目标之一是引入一个大的细粒度注释数据集，以便对DR进行更可解释的诊断。现有数据集和我们提出的数据集的详细信息如下。

**A.现有DR分级数据集 **

1） Kaggle EyePACS[27]：它由35126张训练图像和53576张仅包含分级标签的测试图像组成。这些图像是从不同的光源收集的，光源条件不同，注释质量差。每张图像中是否存在DR的评分范围为0到4。在此数据集中，一些图像包含瑕疵、失焦、曝光不足或曝光过度。

2） Kaggle-APTOS2019[32]：它由3662张训练图像和1928张测试图像组成，也只有分级标签。该数据集还存在图像和标签中的噪声。

3） ODIR-5K[31]：这是一个包含5000名患者的结构化眼科数据集。提供了八种眼科疾病类别的多标签图像级注释，包括糖尿病、青光眼、白内障、年龄相关性黄斑变性（AMD）、高血压、近视、正常和其他疾病。每个患者可能包含一个或多个疾病标签。在上一个任务中，我们采用这个数据集来探索从DR到眼部多疾病识别的转移学习。

4） Messidor[28]：这包含1200张眼底图像，但其DR分级标准与之前的数据集不同，只有四个级别（0到3）。除了DR分级外，还为每个分级标签为0到2的图像提供了黄斑水肿的风险。

B. Existing DR Lesion Segmentation Datasets

1） IDRiD[29]：该数据集提供了典型糖尿病视网膜病变和正常视网膜结构的专家注释。全套图像包含516张图像，但其中只有81张用像素级二值病变遮罩标记。提供了与DR相关的异常情况，如微动脉瘤、出血、软渗出物和硬渗出物。

2） DRIVE[30]：该数据集用于评估视网膜图像中血管的分割，包含像素级的二值血管遮罩。这40幅图像分为一个训练集和一个测试集，每个测试集包含20幅图像。

C. Our FGADR Dataset

我们收集了一个细粒度的带注释的糖尿病视网膜病变（FGADR）数据集，该数据集由两组组成。第一组名为Seg -set，包含1842张图像，包括像素级病变注释和图像级分级标签。病变包括微动脉瘤（MA）、出血（HE）、硬渗出物（EX）、软渗出物（SE）、视网膜内微血管异常（IRMA）和新生血管（NV）。分级标签由三名眼科医生标注。第二组名为Grade-set，是一组1000张图像，带有分级标签，由六名眼科医生标注。这中设置是有高度的可信度，专门设计用于评估评分性能。

除了在Seg集合中注释的六个像素级病变外，我们还注释了激光标记（LM）和增殖膜（PM）病变。激光标记和增殖膜是通常出现在重度DR级别（即3级和4级）的重要病变。然而，它们看起来像是全球性的特征，这使得它们很难以像素方式进行注释。因此，仅提供这两个病变的图像级标签，指示图像是否存在病变。图3显示了这两种病变的一些例子，以及通过弱监督方法提取的类别激活图[33]。

1）Dataset Construction and Labeling: 眼底图像数据主要来自我们当地的合作医院。为了保护患者隐私，我们在构建数据集时对个人信息进行了匿名化。在数据预清理期间，我们只为每个患者ID选择了质量最好的图像。因此，数据集中没有两张图像在血管或视盘方面具有相同的视网膜结构。这种过滤可确保FGADR中病变的多样性。此外，由于我们的主要目标是建立一个用于注释像素级DR病变的数据集，因此我们倾向于选择包含更多病变的高DR严重程度眼底图像。因此，我们基于Kaggle EyePACS数据集[27]训练了一个DR分级模型，然后将其应用于我们从医院收集的数据。我们选择了一组高质量的图像进行注释，模型的DR级别为2、3和4，其中可能还包含错误分类的0级和1级图像。三名眼科医生（两名住院医生和一名主治医生）被邀请对该Seg集进行注释。住院眼科医生进行了初步注释，主管医师负责最终验证。图2中提供了一些注释示例。除病变注释外，Seg集的图像级分级注释也由三名眼科医生以投票方式进行。

另一个集Grade-set也仅提供了分阶段标签。该集合的作用是评估DR分级模型的性能。为了确保分级注释的准确性，我们邀请了六名眼科医生（三名住院医师和三名主管医师）进行注释，并再次对最终标签进行投票。

2）Annotation Criteria（注释标准）: 我们采用了严格的注释标准，FGADR的Seg集的整个注释过程耗时超过10个月。我们要求三名眼科医生通过质量控制流程严格保证注释的准确性。细节：MAs在彩色照片中显示为小红点，血管造影上有染色。如果没有血管造影，如果分级员认为病变是MA，彩色照片上的红点被分级为MA。红点状病变通常被分级为视网膜HEs，而不是MAs。EXs是具有锐边的白色或黄白色小沉积物。通常，它们看起来蜡质、有光泽或闪闪发光。呈白点状且管腔内未见血管的MAs被视为EXs。浅白色、淡黄白色或灰白色区域，边缘呈羽毛状，经常显示平行于神经纤维层的条纹。椎间盘的NVs的特征是在视神经或视网膜前发育可变口径的血管。IRMA的口径稍大，排列更广，通常位于视网膜内各层。此外，DR分级标准严格遵循国际协议[2]。

3）Dataset Statistics:（a） Seg集合中的大多数图像包含一种或多种带注释的病变。病变计数的分布如图4（a）所示。我们观察到，微动脉瘤、出血和硬渗出物是DR图像中最常见的三种病变，而视网膜内微血管异常、新生血管、激光标记和增殖膜很少出现。

（b）Seg集合和等级集合的等级分布如图4（b）所示。由于Segset中的所有样本都是通过预先训练的分级模型粗略选择的，因此0级和1级的比率较低。更具体地说，Seg集合有1842个图像（[‘grade’：图像的数量]‘0’：101，‘1’：212，‘2’：595，‘3’：647，‘4’：287），而grade集合有1000个图像（‘0’：143，‘1’：125，‘2’：566，‘3’：105，‘4’：61）。

（c）我们还说明了与图4（c）中的五个分级水平相关的各种病变分布，并进行了归一化处理。如图所示，微动脉瘤是首次出现的DR病变，通常始于早期（0级或1级）。此外，所有病变的数量通常随着DR分级的增加而增加。尽管仅根据病变分布很难区分3期和4期，但我们观察到新生血管、激光标记和增殖膜是进一步区分的良好因素。

III.DR病变分割、分级和转移学习的基准设置

利用建议的FGADR数据集，我们可以探索与糖尿病视网膜病变相关的各种问题，例如像素级病变分割和图像级DR严重程度分级。我们设置了三个任务来评估数据集上的不同方法。在任务1中，医学成像的经典分割模型适用于多个DR病变。在任务2中，我们通过联合分类和病变分割来研究DR分级，我们认为这是一个具有挑战性和有趣的研究课题。此外，由于我们在眼底图像上有大量的细粒度注释，在任务3中还提出了一种转移学习方法，以探索我们的数据集是否有助于其他眼部疾病的诊断。

A. Task 1: DR Lesion Segmentation

任务1旨在评估DR病变分割模型，其中提供了大量像素级注释。此任务仅基于FGADR的Seg集。它包含六个子任务，包括微动脉瘤、软渗出物、硬渗出物、出血、视网膜内微血管异常和新生血管的分割。对于每个子任务，我们进行两次交叉验证实验，使用50%的图像进行训练，50%进行测试。

B. Task 2: Grading by Joint Classification and Segmentation

由于DR诊断的主要目标之一是对严重程度从0到4进行评级，因此我们还想在包含1000张测试图像的等级集上评估分级模型的性能。分级任务作为一个普通的分类问题来实现。我们的目标是将分类任务与病变分割结合起来，共同为最终诊断DR做出贡献。Kaggle EyePACS[27]中的图像级分级标签和我们的FGADR数据集的Seg集结合起来训练分类模型，而Seg集的像素级标签用于训练分割模型。本任务的总体框架是利用Seg集数据来训练DR相关病变分割模块，并在KaggleEyePACS和FGADR等级集的数据上提取DR相关病变特征，以便联合学习和评估分级模型。为了学习分级模型，分割分支（使用像素级DR相关病变注释进行训练）提取的特征与分级分支（仅使用图像级DR分级标签进行训练）获得的特征相结合，以改进结果。

已经提出了一些关于联合分类和分割模型的工作。例如，[15]引入了一个病变检测模型，首先提取病变信息，然后使用基于注意的网络融合原始图像和病变特征来识别医生。在[16]中引入了一个协作学习框架，以端到端的方式优化病变分割模型和疾病分级模型。然后，提出了一个病灶注意分类模块来提高严重程度分级的准确性，并提出了一个病灶注意模块来改进从未注释数据中提取的病灶图，以进行半监督分割。此外，在[34]中，分割和分类是并行进行的。将分割模型预测的病变概率图和弱监督分类模型的类别激活图结合起来进行联合诊断。在本任务中，我们采用上述三种方法作为基线来评估DR分级性能，并探索分级模型如何从病变的学习中受益根据我们的数据训练分割模型。此外，还使用imagelevel激光标记和增殖膜损伤标签来共同训练分类模型。

C. Task 3: Inductive Transfer Learning for Ocular Multi-Disease Identification

除了诊断糖尿病视网膜病变，我们还想探索我们的细粒度注释数据集是否有助于学习其他眼病识别任务。首先，一些眼科疾病的病变表现与DR.相似。例如，AMD是一种后天性视网膜变性，具有新生血管紊乱和出血等异常。高血压性视网膜病变通常包括渗出物和出血。这些共享病变可以用来帮助训练相应的疾病识别模型，而无需像素级注释。其次，我们的数据集中丰富的注释还可以增强模型在眼底图像表示学习方面的泛化能力，因为各种纹理和颜色都被很好地描绘出来。因此，我们提出了一种转移学习方法，以提高使用我们的数据集进行多疾病识别的性能。评估是在ODIR-5K[31]数据集上进行的。

迁移学习涉及使用从任务中学习到的知识，对于这些任务，在标记数据有限的情况下，有大量标记数据可用。根据不同的情况，它可以大致分为三个分支。首先，无论源域和目标域是否相似，如果任务不同，则使用归纳迁移学习[35]。相比之下，如果源域和目标域不同，但任务相同，则首选跨导迁移学习[36]。此外，如果两个领域和任务都不同，则需要考虑无监督迁移学习[37]。在我们的例子中，需要一种归纳迁移学习方法，因为源域和目标域都是眼底图像，但源域和目标域任务分别是DR病变分割和多疾病分类。归纳迁移学习算法试图利用源域的归纳偏差来帮助改进目标任务。根据源域是否包含标记数据，该策略可进一步分为两个子类，分别类似于多任务学习和自学学习。

我们提出的归纳迁移学习方法由三个模块组成，如图5所示。首先，源域任务是学习与DR相关的病变分割模块。其次，目标域任务是学习用于识别各种眼病的多标签分类模块。基本上，提出了一种多尺度传递连接（MTC）方法，将从源域数据学习到的强大特征提取能力扩展到目标域数据。因此，目标域数据的组合特征表示得到了增强，尤其是对FGADR数据集中包含的病变外观进行编码。此外，还提出了一种特定领域的对抗性适应（DSAA）模块，通过添加特定领域的鉴别器来适应目标和源领域数据的表示分布，同时保持疾病差异。我们介绍DSAA，因为我们的目标是调整两个域的表示，以便在源域数据上训练的分割模块能够更好地拟合目标域数据，并提取更有效的多尺度转移特征。换言之，DSAA的提出是为了提高MTC的有效性。

Details of the proposed algorithm:

让 $D_S$ 表示源域数据， $Y_S$ 表示相应的标签。 $L_S$ 是学习源域任务的损失。此外，让 $L_T$ 表示目标域数据， $Y_T$ 表示相应的标签。这是学习目标领域任务的损失。然后，还提出了一种额外的自适应损失 $L_A$ ，以对抗式学习的方式自适应两个域分布。我们将总损失函数概括为：

式中λ和γ平衡不同损耗部分的重量。

对于病变分割模块，我们简单地采用[38]中介绍的密集U网结构作为源域主干，没有太多的钟声和哨声。详细信息如图5所示。在每个致密块体后采用过渡层[38]。由于我们的输入大小是[38]的两倍，我们在编码器中最后一个密集块之后再添加一个过渡层，以适当增加接收场。为了优化源域数据的分割模块，提供了一对输入图像和相应的病变遮罩。 $L_S$ 采用加权二进制cross-entropy loss 和Dice loss，如任务1所示。

在目标域中，采用相似的DenseNet主干来学习多标签分类模块。我们提出了多尺度传输连接来集成从分割模块中学习到的特征。如图5所示，给定目标域图像，其多尺度特征由分割模块的编码器提取。然后，将这些特征与分类模块中相应的比例特征连接起来。因此，从分割模块中学习到的描述性表示可以仅在图像级标签的监督下转移到分类模块。此外，它采用加权二元交叉熵损失。

由于源域和目标域（由不同的数据源引入）之间存在特征分布差异，我们的目标是调整两个域数据的表示，以便在源域数据上训练的分割模块能够拟合目标域数据，并提取更好的多尺度传递特征。这种在两个领域之间共享的疾病模式的知识转移可以改善目标领域任务的结果。此外，由于目标域引入的疾病差异，我们的方法也考虑了特定域的属性。因此，提出了一种DSAA方法来解决域自适应问题。首先，我们从源域的分割模块中提取瓶颈特征向量，从目标域的分类模块中提取相同的特征向量。然后，提出了一种特定于域的鉴别器，该鉴别器将两个卷积（Conv）层堆叠起来，以区分特征是来自源域还是目标域。

在以前的一些工作中，主网络中采用了特定于域的批量归一化（DSBN）[39]，因为主网络的所有卷积层参数在源域和目标域之间共享，以学习域不变特征。之所以能够做到这一点，是因为使用不同的数据源只会引起域数据结构的分布变化，而这两个域的任务是相同的。然而，在我们的任务中，我们不仅面临着数据分布的变化，而且还面临着两个领域之间的疾病差异。因此，我们不共享主要网络参数，而是采用单独的分支来学习两个域的不同任务。因此，在这种情况下，在主网络中使用DSBN来寻址域转移是不合适的。取而代之的是，我们在鉴别器中的每个Conv层之后采用DSBN来代替标准批量归一化（BN）。鉴别器分离BN层的分支，每个域使用一个，同时跨域共享所有其他Conv参数。我们之所以采用DSBN，是因为我们希望通过在对抗性学习过程中利用从给定领域捕获的统计数据和学习参数，有效地去除鉴别器中特定于领域的疾病信息，并**增加鉴别器训练的难度[**40]。因此，对抗性适应可以约束两个域的编码器学习域不变特征，同时保持疾病差异。特定领域的适应模块与两个任务学习模块同时优化。

D. Evaluation Metrics

为了评估任务1中的分割性能，我们使用了四个广泛采用的指标，即骰子相似系数、接收器工作特性曲线下面积（AUC-ROC）、精确回忆曲线下面积（AUC-PR）和平均绝对误差（MAE）。在我们的评估中，我们选择sigmoid函数作为最终预测 $S_p$ .因此，我们测量最终预测图和像素级分割背景真相G之间的相似性/相异性，其定义如下：

1)Dice Similarity Coefficient (Dice):这是评估医学图像分割的经典指标。这是一种基于区域的评估区域重叠的方法。我们将其表述为：

2）AUC-ROC:它比较了敏感性和（1-特异性），换句话说，比较了真阳性率和假阳性率。AUC-ROC越大，真阳性和真阴性之间的区别就越大。

3）AUC-PR:精确回忆曲线根据真阳性率绘制阳性预测值。精确性和回忆性都集中在积极类（少数类），而与真正的消极类（多数类）无关。因此，当数据不平衡时，PR比ROC更合适。

4）Mean Absolute Error (MAE):这会测量Sp和G之间的像素误差，其定义如下：

对于任务2，DR分级性能作为五级分类问题进行评估。除了分类混淆矩阵和精度外，还采用了二次加权kappa度量。

5）Quadratic Weighted Kappa (Q.W.Kappa): 当权重设置为“二次”时，二次kappa度量与Cohen’skappa度量相同[41]。其计算如下。首先，在预测和基本真相评级之间创建多类混淆O，然后是权重矩阵w，该矩阵计算基本真相和预测评级之间的权重。然后，计算预测和基本事实中每个评级的值计数，并计算两个值计数向量的外积为E。最后，E和O被归一化，并用于计算加权kappa。

为了评估任务3中的多疾病分类表现，使用Cohen’skappa、F-1评分和AUC-ROC。

6）Cohen’s Kappa:这项提议是为了两名评分员达成一致。公式如下：

式中， $p_o$ 和 $p_e$ 表示评分员之间观察到的相对一致性和偶然一致性的假设概率。

7）F-1 Score:这是基于精度和召回率计算的，由以下公式给出：

F-1分数在精确性和回忆性之间保持平衡。如果类别分布不均匀，我们使用这个比较指标，因为精确性和召回率可能会给出误导性的结果。

IV. EXPERIMENTS AND RESULTS

A. Baselines

1）分割：为了评估DR病变分割任务，采用了几种经典的语义分割方法。它们可以粗略地分为非U-Net框架和U-Net框架。

非U-Net框架：FCN-8s[42]采用完全卷积网络，以编码器-解码器的方式堆叠多个卷积层。解码器使用转置卷积对图像进行上采样，以预测分段输出。我们使用8s的设置来熔断输出。DeepLabV3+[43]也采用编码器-解码器体系结构，但引入了Atrus空间金字塔池、Atrus可分离卷积和修改的对齐异常，以提高性能。测试s=8和s=16的设置。

**U-Net框架：**U-Net[44]被提出用于生物医学图像分割。其最成功的修改是在上采样部分设计大量具有跳过连接的特征通道，使模型能够更好地将上下文信息传播到分辨率更高的层。多类U-Net是一个扩展，它将二进制输出更改为多类输出。Attention U-Net[45]引入了端到端可训练的注意门，以分离定位和后续分段步骤。这种设计可以提高模型对前景像素的灵敏度和准确性。Gated UNet[46]提出了一种新的注意门，用于抑制不相关区域并聚焦显著区域特征。此外，Dense U-Net[38]将一个紧密连接的卷积网络集成到U-Net框架中，从而加强了特征的使用，提高了分割性能。UNet++[47]在三个方面不同于原始的U-Net，它在跳跃路径上有卷积层，在跳跃路径上有密集的跳跃连接，并使用深度监控，从而实现模型修剪。对于所有的基线方法，除了六个病灶共用主干的多类U网络外，每个病灶都训练单个分割网络。

2）分级：任务2是对DR严重程度从0到4进行分级，这是一个五级分类问题。我们提供三种评估基准。第一类基线采用了一个基本的仅分类模型，具有不同的经典主干，包括VGG-16[48]、ResNet-50[49]、Inception v3[50]和DenseNet-121[51]。第二类基线是Kaggle竞赛[27]，[32]中顶级解决方案提出的集合模型。对各种模型的结果进行平均以给出最终预测，这通常会在准确性方面产生实质性的改进。我们采用了两条基线，在表IV中分别表示为模型集合1和模型集合2。模型集合1是[27]的第一位解决方案，它结合了三个模型——两个使用分数最大池的卷积网络[52]和一个稍加修改的VGG网络。模型集成2是[32]中排名第一的解决方案，它由八个模型组成，包括Inception、ResNet和SEResNeXt[53]变体。最后但并非最不重要的是，第三种基线采用了结合病变识别和分级模型的想法。我们评估了三种方法：第一种[15]学习病变特征使用没有像素级训练的视觉注意模型，而后两个[16]，[34]利用分割模型预测的病变遮罩来帮助分级。[16]、[34]的主干都改为DenseNet-121进行比较。

3） **多标签分类：**为了评估我们提出的诱导转移学习方法对眼部多疾病识别的有效性，我们进行了两项消融研究。首先，与仅采用基于目标域数据训练的基本分类模块的基线相比，第一项消融研究探索了多尺度传输连接（基线+MTC）的有效性。从源域任务中学习到的多尺度特征被转移到目标域任务中。此外，第二项消融研究验证了对抗性领域特定适应模块（基线+MTC+DSAA）可以提高目标领域任务的性能。

我们的最终基线+MTC+DSAA的训练计划包括两个阶段。在第一步中，使用源域数据对分割模块进行预训练。采用ADAM优化器，基本学习率为0.01，动量为0.5。我们对分段模块进行了预训练，批量大小为32，用于100个时代。在第二步中，这两个域任务连同多尺度传输连接和特定于域的对抗适应模块一起优化。在整个实验过程中，超参数λ和γ被选择为1和0.5，这将产生最好的效果。基本学习率设置为0.001，批量大小设置为64。基于目标域数据长度，在300个历元后完成训练。

B. Results of Task: DR Lesion Segmentation

在我们的病变分割实验中，训练和测试数据的比例被分割为1:1，用于基线比较。在除多类U网络外的每种基线方法中，针对不同的病变类型训练不同的分割网络。表二提供了不同方法的结果，我们可以从中得出以下观察结果。首先，DenseU-Net和U-Net++是所有病变的两个最佳模型，但用于分割硬渗出物（EX）病变的模型除外，因为硬渗出物（EX）病变相对容易分割，因此没有哪种方法在这方面取得优势。其次，与标准U-Net相比，Multi-class U-Net显示PR的AUC略有增加，因为所有病变共享相同的模型参数，以便更好地学习表征。它还显著降低了计算成本。第三，U-Net框架始终比非U-Net框架获得更好的结果，这表明了UNet的上采样和跳过连接在允许网络将上下文信息传播到更高分辨率层方面的优势。第四，与基本U-Net相比，注意U-Net和门控U-Net中提出的注意模块都能显著提高分割性能。最后但并非最不重要的一点是，对于微动脉瘤（MA）、视网膜内微血管异常（IRMA）和新生血管（NV），目前没有一种基线模型取得令人满意的结果。MAs通常非常小，容易被漏检或错误地归类为出血（HE）。IRMA和NV的训练数据仍然有限。因此，在未来的研究中，更好的分割算法有望克服这些挑战。

除了可用于所有病变检测任务的深度分割框架外，还提出了一些传统的分类方法来处理与DR相关的一个或两个特定病变[20]，介绍了一种视网膜出血检测方法。提出了一种提取splat特征的方法，用于基于splat的出血检测。特征提取模块包括基于像素的响应聚合的splat特征和基于splat的特征。该算法采用了过滤器和包装器的方法来选择特征并降低维数。使用K-最近邻（KNN）搜索学习分类器并获得出血图。此外，为了检测微小病变，传统的像素分类方法也可以有效地工作，因为MAs可以在低层特征上编码。我们评估[21]，它使用多尺度贝叶斯相关滤波器。在这种方法中，来自高斯滤波器组的响应被用于构建对象及其周围环境的概率模型。当相关滤波的响应大于某个阈值时，检测到的位置被视为候选微动脉瘤位置。所有比较结果见表三。（通过手工构建特征进行学习）

C. Results of Task 2: DR Grading

我们评估了EyePACS测试集（EyePACS测试）和FGADR评分集（FGADR评分集）的评分结果，如表IV所示，以进行综合比较。首先，在四种型号中，DenseNet-121主干网的性能最好。模型集成进一步略微增加了结果。此外，尽管Lin[15]认为学习病变注意有助于分级，但注意图是以弱监督的方式学习的，无需像素级监督。因此，其改进是有限的。然而，借助于完全监督分割模型预测的病变掩模，取得了显著的改进。周[16]在EyePACS测试集和FGADR等级集上，Q.W.Kappa分别增加了4.97%和8.04%。吴[34]在这两盘中的Q.W.Kappa分别提高了4.23%和7.47%。关于更多细节，我们还提供了使用图7中的病变分割预测前后混淆矩阵的比较。可以观察到，一级和三级分类的准确率分别大幅提高了12.8%和15.25%。从2级到0级的错误分类率降低了6.89%. 此外，当提供病变mask时，4级DR图像均未被错误地评为0级或1级。因此，这些改进使DR诊断系统更加健壮，对眼科医生来说更容易理解，因为从高严重程度的DR水平到正常或早期DR水平的错误分类是没有意义的。

D. Results of Task 3: Ocular Multi-Disease Identification

为了评估眼部多疾病识别，使用ODIR-5K【31】数据集中的7000幅图像进行训练和验证。进行了五次交叉验证实验。表五显示了不同方法的结果。我们首先评估各个模型，VGG-16、Inception v3和我们的DenseNet架构，作为基准，DenseNet在这些模型中实现了最佳性能。然后，在源域任务学习的帮助下，多尺度转移连接（MTC）将Kappa提高了2.87%。此外，领域特异性对抗适应（DSAA）模块可以进一步提高模型性能，Kappa提高5.05%。两种设计的有效性都得到了验证。与两个域采用相同BN层的正常对抗性适应（AA）相比，域特异性鉴别器的单独BN层使Kappa增加了1.96%。关于更多细节，每种疾病的分类准确度如表六所示。我们观察到，从细粒度注释的DR域数据进行转移学习，可以持续改善任务域中所有眼部疾病的识别结果。尤其是对于糖尿病、AMD和高血压，改善是显著的，而对于青光眼、白内障和近视则略有改善。为了更好地解释从源域到目标域的迁移学习的有效性，我们可视化了被我们的迁移学习方法正确分类但被基线模型错误分类的样本的最终logit图。如图8所示，我们观察到基线+MTC+DSAA提取的logit映射可以包含更精确的病变区域与疾病相关，因为从源域网络学习到的病变分割能力被集成到目标域网络中。

V. CONCLUSION

为了促进医学图像分割、分类和转移学习的研究，特别是对糖尿病视网膜病变诊断社区的研究，在本文中，我们提出了一个大型细粒度注释DR数据集FGADR。此外，我们还进行了大量的实验来比较不同的最先进的分割模型，并探索病变分割任务。联合分类和分割方法在DR分级任务中表现出更好的性能。我们还开发了一种归纳迁移学习方法DSAA，利用我们的DR数据集来改进眼部多疾病识别。