SSiT论文阅读

文章名称:SSiT: Saliency-guided Self-supervised Image Transformer for Diabetic Retinopathy Grading

作者: Yijin Huang, Junyan Lyu, Pujin Cheng, Roger Tam, Xiaoying Tang

收稿日期:2023.7.3(最后修改)

发布日期:

下载地址:


https://doi.org/10.48550/arXiv.2210.10969

期刊名称

分区

影响因子

采用的基础模型

实验效果

数据集

IEEE TRANSACTIONS ON MEDICAL IMAGING

一区

11.7

ViT

ArXic

  1. 概述:

摘要部分提到,自监督学习(SSL)已经被广泛应用于通过利用未标记的图像来学习图像表示。但是在医学图像分析领域尚未得到充分的探索。本文提出了显着性引导的自监督图像变换器(SSiT),用于DR分级。

将显着性图引入SSL中,利用特定领域的先验知识指导自监督预训练,采用了两个显着性引导学习任务:

  1. 基于动量对比进行显着性引导对比学习。
  2. 训练查询编码器来预测显着性分割,鼓励在学习的表示中保留细粒度信息。

介绍部分提到,医学图像注释极其耗时且容易出错,给临床的专家带来沉重的负担。现阶段SSL已经成功应用到自然图像领域,但是因为自然图像与医学图像的差异性较大:自然图像中物体占据很大一部分,并且特征有明显区别。而医学图像具有相似的解剖结构和强度分布,并且特征可能分散在整个图像中。因此局部细粒度信息对基于医学图像的疾病判别非常重要。

为了提高SSL对细粒度信息的关注,通过将显着图引入SSL来提出显着性引导自监督图像变换器(SSiT)。显着图可以清楚地表征眼底图像的前景,包括视盘/视杯、血管以及病变。采用无需训练的像素级显着性检测方法。从没有注释的预训练数据集中获取眼底图像的显着性图。

本文的主要贡献:

  1. 提出了SSiT用于DR分级。该框架采用两个学习目标:显着性引导对比损失和显着性图分割损失。显着性引导对比损失鼓励编码器聚合显着区域的特征,显着性图分割损失促使编码器在学习的表示中保留细粒度细节。
  2.  本文提出的自监督ViT明确学习DR相关诊断区域的语义信息,这对于其他SSL方法是不可行的。
  3. 这是第一个证明显着图可以显著提高SSL医学图像预训练性能的工作。
  4. 在四个眼底图像数据集上面进行实验,证明了SSiT在所有数据集和所有评估设置下始终优于SOTA自监督方法。

SSiT与之前的自监督任务的区别在于:它是利用显着性来指导自监督训练。

  1. 网络结构:

设计了一个基于动量对比的对比学习框架。有两个编码器,一个查询编码器和一个关键编码器。用于从同意输入图像的不同增强视图生成表示。关键编码器是可学习查询编码器的基于动量的移动平均值。通过从关键编码器的输入序列中删除琐碎的补丁的方法来鼓励查询编码器学习显着区域的表示。这样可以利用关键编码器提供的关注显着区域的目标表示来指导查询编码器的训练。

为学习眼底图像的细粒度语义,通过使用查询编码器预测显着性分割来引入另一个预训练目标。

实现方法:

  1. 使用ViT作为基准网络。
  2. 显着性引导的对比学习:
    1. 普通对比学习:数据增强操作的随机组合被应用与输入图像以生成两个不同的视图。两个不同的视图然后由两个编码器(Q和K)进行编码,由θq和θk参数化。Q由ViT,投影头和预测头组成,K没有预测头。K是动量编码器,其参数是通过Q参数的移动平均值来更新。对比学习的目的是最大化同一输入图像的两个视图的特征之间的相似性。并最小化不同图像的特征之间的相似性。
    2. 显着图指导的对比学习:普通对比学习在自然图像领域有着不错的性能,但在眼底图像上的能力有限。如图一所示,显着图突出显示了图像中的显着区域,其中黑色代表低显着区域,白色代表高显着区域,像素值表示显着程度。本文采用静态显着性检测方法,该方法根据图像的中心-环绕差异计算显着性。如图一所示,我们首先对输入图像相似的显著性图进行修补,并将每个修补程序中的最大显著性值作为修补程序的显着性得分。然后从动量编码器的输入序列中删除显着性得分最低的m%个补丁,其中掩蔽比m是控制要啊删除的补丁数量的超参数。通过这种方式,动量编码器被限制提供与显着补丁相对应的目标表示。通过最大化来自动量编码器的正样本之间的特征相似性,查询编码器学习聚合来自显着补丁的特征。请注意,补丁排除仅在预训练期间对动量编码器执行,因此不会影响在下游 DR 分级任务中使用整个图像作为输入的查询编码器的传输能力。
  3. 显着图分割

对比学习通常将任务表述为利用全局图像表示的图像级判别预测问题。因此它对细粒度细节的保留能力非常有限。因此本文提出了一个额外的像素级显着图分割任务来训练模型捕获局部信息。首先通过阈值化对显着性图进行二值化,以生成用于分割的掩膜y。为了以全分辨率重建分割图作为输入图像,将轻量级解码器附加到查询编码器的最终变换器块,采用块表示{zL,iRD|i=1,……,N}

作为输入。解码器由一个线性层和后面的sigmoid激活组成,将每个D维patch表示映射到P2维特征向量。我们将所有P2维特征向量重塑会原始块大小PxP。然后将快分割的空间顺序恢复,将所有块分割连接起来,形成具有全分辨率HxW的最终分割预测y^

其中Ω(·)表示像素总数。为准确分割显着图,鼓励编码器学习显着区域的形状,颜色和纹理。有利于识别异常区域。

  1. 联合训练

SSiT的总体目标是

其中λcl 和 λseg 是平衡两个目标的超参数为了最小化目标 Lcl,查询编码器需要捕获输入图像的显着性,并将输出表示投影到由显着性引导动量编码器编码的潜在空间中。同时,Lseg 鼓励查询编码器学习显着特征,并通过训练模型来预测像素级显着性分割,将细粒度信息编码为表示。总的来说,SSiT 可以有效地利用显着性图来指导查询编码器学习用显着性信息和细粒度细节编码的表示。

  1. 实现细节
    1. ViT,使用中等尺寸的ViT-S
    2. 数据增强,首先对每个输入图像应用随机裁剪,然后将图像大小调整为224x224,然后进行随机水平/垂直翻转,颜色失真,高斯模糊的组合。
    3. 预训练设置:使用AdamW训练。学习率为0.0001,权重衰减为0.1.

  1. 数据集的消融实验:

预训练数据集使用的是EyEPacs数据集,消融实验使用DDR,Aptos2019和Messidor-2

三种不同架构的SSiT在不同数据集上面的性能。

表格  描述已自动生成

使用不同显着性检测方法的性能。

表格  描述已自动生成

不同超参数λseg数值下SSiT在三个数据集上面的表现。

与最新方法的比较

  1. 评价标准:

微调评估,线性评估,k-NN分类,kappa评分

  1. 结论:

在这项工作中,提出并验证了一种新颖的自我监督学习框架,SSiT,用于从眼底图像中学习可概括和可转移的表示。 SSiT 通过将显着图引入自监督范式来区别于其他 SSL 方法。在所提出的对比学习方案中,我们根据显着图从动量编码器的输入序列中删除琐碎的补丁,从而约束动量编码器提供专注于显着区域的目标表示。因此,引导查询编码器关注眼底图像中与 DR 相关的诊断区域。此外,查询编码器经过训练以预测眼底图像的显着性分割,这有助于在图像表示中保留细粒度信息。对多个眼底图像数据集进行了广泛的实验,以评估学习表示的质量,包括微调评估、线性评估和 k-NN 分类。实验结果表明,SSiT 在 DR 分级方面始终优于其他 SSL 方法。研究表明,SSiT 中的自监督 ViT 提供了与 DR 相关的诊断特征的丰富语义信息,这是其他 SSL 方法中未观察到的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值