文章来源
Expert Systems with Applications, 2024
文章背景与动机
在治疗neovascular age-related macular degeneration (nAMD)时,对视网膜的SD-OCT图像进行分割很重要。
但人工分割需要大量资源,因此自动分割势在必行。
为了提高自动分割的性能,解决UNet的学习过程会导致空间信息减少
前人工作的缺点:
- 丢失空间信息
- 上下文推理存在问题
- 空间信息推理
提出了graph convolution network (GCN)-assisted attention-guided UNet(结合了图卷积、Transformer与注意力引导的UNet)
研究内容
主要是学习网络的结构,关键是
GCN-assisted feature embedding
目的:提高模型的图像分割性能,让模型有更强的空间推理(spatial inference)能力
使用了GCN来代替CNN设计嵌入层,这样可以获得远距离的上下文信息。
其中:
- X X X: C C Cx H H Hx W W W,输入数据
- X r X_r Xr: C r C_r Cr x H W HW HW,降维特征映射
- X a X_a Xa: C n C_n Cn x H W HW HW,投影矩阵
- X d X_d Xd: C n C_n Cn x H H H x W W W,逆投影矩阵
- H H H(Node Feature): C n C_n Cnx C r C_r Cr, X r X_r Xr与 X a X_a Xa进行矩阵乘法所得
- F F F: C C C x H H H x W W W,经过重塑与卷积变回原本大小
过程
- X提供给两个1x1卷积层,并产生一个降维矩阵 X r X_r Xr与一个投影矩阵(projection matrix) X a X_a Xa,其中 X r X_r Xr经过了Reshape, X a X_a Xa经过了Reshape与转置。
- 然后 X r X_r Xr与 X a X_a Xa进行矩阵乘法,得到节点特征 H H H,并将它输入到GCN block中进行图卷积,输出结果为 Z Z Z。
- 将 X X X经过卷积层的结果重塑为逆投影矩阵(inverse projection matrix) X d X_d Xd,然后将其与 Z Z Z进行矩阵乘法,目的是将数据映射回原本的隐空间。
- 最后对输出的特征矩阵进行重塑,让其尺寸变为原本的大小。
输入与输出的大小是一样,并没有改变原本的尺寸,只是增加了信息,增强模型的空间推理能力。
投影矩阵(projection matrix)
是一种用于将高维数据投影到低维空间的线性变换矩阵,通过矩阵乘法来进行降维。
逆矩阵乘法
是与投影矩阵相反的操作,它用于从低维空间还原到高维空间。逆投影矩阵可以将降维后的特征重新映射回其原始的高维空间,或至少是原始空间的一个近似版本。
图卷积
是一种处理图结构数据的深度学习模型,常用于非欧几里得空间的数据。
在传统的CNN中,卷积操作在规则的二维网格上进行(如图像像素矩阵),但图中的节点和边并不遵循规则的网格结构。
因此,GCN通过将卷积的思想扩展到图结构上,能够捕捉节点之间的局部关系,利用邻居节点的信息更新每个节点的特征表示。
图卷积的核心构成:
- 节点:图的基本单元,每个节点都有自己的特征。将图划分为一个个节点。
- 边:表示节点之间的连接或关系
- 卷积操作:通过邻居节点的特征聚合更新每个节点的特征表示,类似于CNN中卷积核从邻域聚合信息。
在这篇论文中被用于增强特征的空间推理能力,视网膜OCT图像中的像素点之间并不是规则的网格关系,因此将这些像素视为图的节点,通过GCN来捕捉邻域之间的关系,可以更好地建模视网膜结构的长距离依赖性
空间推理(spatial inference)
是指利用空间信息(例如对象的相对位置、形状、距离等)来进行推理和决策的过程,而且空间推理通过需要结合上下文信息。
在图像分割邻域,空间推理用于理解图像中像素或区域的相对位置及其所属的对象类别。
在这篇论文中,空间推理可以帮助获得更多的远距离上下文信息。
Transformer-based reasoning module
这里就是使用了多头注意力机制模块与位置编码
多头注意力机制
位置编码
目的:增加注意力信息,让网络可以获得更加丰富的上下文信息,让网络可以捕获远距离像素之间的上下文关系。
long-range context (长距离上下文)
指的是在图像或其他数据中,利用较远位置的元素或信息对当前元素进行推断或决策。相对于仅依赖局部信息,长距离上下文强调远处区域的信息在当前区域的推理和理解过程中所起的作用。
在图像中,不同区域的关系可能存在长距离依赖。例如,在医学图像中,某些病灶区域的特征可能跨越较大的空间,无法仅通过局部特征进行识别。长距离上下文能帮助模型捕捉到整个结构,识别出相关性更高的远距离区域。
Multi-scale skip connection
原因:经过下采样会导致空间信息的损失,而该模型需要使用空间推理能力来分割图像,因此需要补充这些信息。
从网络结构图中,可以看出不仅解码器块与编码器中的对应层进行了拼接(绿色箭头),不同的解码器块之间也进行拼接(黑色箭头)。
解码器块之间拼接的运算公式:(看清楚括号)
第n个解码模块的输入由前n-1个解码模块的输出构成,其中第n-1个模块的输出需要经过双线性插值上采样后再与剩下的输出进行拼接以此得到第n个模块的输入。然后将其输入到第n个解码模块进行处理。
- F n F_n Fn:第n个解码器模块的输出
- f n ( ) f_n() fn():第n个解码器模块的卷积操作或特征处理操作,也就是对输入数据的处理函数。
- v n − 1 ( F n − 1 ) v_{n-1}(F_{n-1}) vn−1(Fn−1):对上一层的输出特征图( F n − 1 F_{n-1} Fn−1)进行双线性插值上采样操作,以此来匹配当前层所需的分辨率。
- ⊕:拼接操作,即将多个特征图沿特定维度进行拼接,拼接的目的是融合不同层次的特征,以利用它们所包含的多尺度信息。
损失函数
使用了Sorensen–Dice loss与二元交叉熵损失函数(Binary Cross-Entropy, BCE)。
其中:
- y i y_i yi:第i个像素的真实值
- t t t:当前图像的像素个数
- p i p_i pi:第i个像素的置信度
Sorensen–Dice loss
Binary Cross-Entropy
二元交叉熵损失函数通常用于二分类任务,也可扩展用于多分类任务.
实验
评价标准
Dice Score
判断两个数据集的相似度
Pixel Accuracy
PA=正确分类的像素个数/总像素个数
Sensitivity
敏感度、真阳性率、召回率
表示在所有真实为正类(例如为患病)的样本中,能被正确预测为正类的比例。
- True Positives (TP):真实为正类且模型预测为正类的样本数。
- False Negatives (FN):真实为正类但模型错误预测为负类的样本数。
敏感度高表示模型能够较好地识别出所有真实的正类样本,不会遗漏正类,但可以会误判
Specificity
真阴性率
表示在所有真实为负类(例如为无病)的样本中,能够正确预测为负类的比例
- True Negatives (TN):真实为负类且模型正确预测为负类的样本数。
- False Positives (FP):真实为负类但模型错误预测为正类的样本数。
特异度高 表示模型能够较好地识别出所有真实的负类样本,避免将健康的样本误诊为正类,不会误判,但可能会漏判。
性能测试
在nAMD进行性能对比测试
IRF、SRF、SHRM、PED是图像中的各个类别。
Dice Score
pixel accuracy
Sensitivity and Specificity
消融实验
实验对象:多尺度跳层连接与GCN
验证在其他数据集中的性能优势
在RETOUCH数据集中测试各个网络的性能,验证网络在其他数据集也有优势
可视化分割效果
粉色框:被漏分类的
蓝色框:分类错误的
缺陷
仍会出现分类错误的情况