息肉分割(Polyp Segmentation)-BCNet

BCNet是一种新型深度学习模型,专注于息肉分割,通过跨层特征集成策略(CFIS)、跨层特征交互模块(ACFIM)、全局特征集成模块(GFIM)和双边边界提取模块(BBEM)提高分割精度。ACFIM利用注意力机制融合上下文信息,而BBEM则利用高层信息指导浅层特征以强化边界。实验显示BCNet在多个数据集上优于现有方法。
摘要由CSDN通过智能技术生成

论文:Boundary Constraint Network With Cross Layer Feature Integration for Polyp Segmentation

目录

一、背景和出发点

二、创新点

三、BCNet具体实现

1. 跨层特征集成策略(CFIS)

2. 跨层特征交互模块(ACFIM)

(1)获得F3'

(2)获得F4' 

(3)输出F1

3. 全局特征集成模块(GFIM)

4. 双边边界提取模块(BBEM)

四、损失函数

五、实验

六、结论


一、背景和出发点

研究背景:大多数现有的基于CNNs的方法进行息肉分割效果往往不理想,作者希望通过增加边界约束,来提高息肉分割的精确度。

出发点:融合跨层上下文信息和利用边缘信息,以提高息肉分割的精确度。

主要工作:1. 跨层特征集成策略(CFIS) 2. 跨层特征交互模块(ACFIM) 3. 全局特征集成模块(GFIM) 4. 双边边界提取模块(BBEM

研究成果:在三个公共数据集上的实验结果表明,所提出的BCNet在有效性和通用性方面都优于七种最先进的竞争方法。

二、创新点

1. 为了准确地分割息肉,考虑到息肉的挑战性特征,作者提出了一种新的深度网络(称为BCNet),重点是跨层特征集成和边界提取。

2. 提出了一种新的跨层特征融合策略(CFIS),该策略由ACFIMGFIM组成。ACFIM自适应地桥接了前三个最高层的上下文信息。GFIM通过全局注意力引导跨层聚合融合的信息。提出的CFIS避免了简单的特征添加或集中带来的缺点,提高了分割性能。

3. 提出了一种新的边界提取模块BBEM。在高级位置特征和边界约束的帮助下,BBEM协同探索浅层的息肉和非息肉信息,并产生更好的分割性能。

4. 在三个公共数据集上进行的大量实验表明,我们的BCNet具有很高的有效性和通用性,并且优于为通用和特定目的设计的最先进的方法。

三、BCNet具体实现

BCNet总体架构如下所示:

输入:对于一个输入图像X ,从骨干的卷积块中获得一组输出X_1X_2X_3X_4X_5,将X_2X_3X_4X_5分别送入RFB中,提取其上下文信息\widehat{X}_2\widehat{X}_3\widehat{X}_4\widehat{X}_5

最终输出:息肉边界预测 D_b  和息肉区域预测 D_p。注意,BCNet有两个输出。

RFB:是一种新的特征提取模块。它可以增大特征图的感受野。在BCNet,用于突出锐利的边缘,抑制轻微的边缘。

参考博客:RFB(Receptive Field Block)

1. 跨层特征集成策略(CFIS

目的:融合前三层的上下文信息 ,获得息肉感知特征。

过程:CFIS获取最高的前三层的上下文信息 \widehat{X}_3\widehat{X}_4\widehat{X}_5作为息肉感知特征 \chi 的输入。首先,将\widehat{X}_3\widehat{X}_4\widehat{X}_5ACFIM融合,分别得到F_1F_2F_3。其次,将F_1F_3分别馈入同一层的两个GFIM中,将输出相加生成 \chi

2. 跨层特征交互模块(ACFIM

目的:通过应用注意力机制,将相邻层之间的上下文信息连接起来,自适应地选择和加强用于息肉分割的重要特征。因此需要获取F_3'(提取前景特征)和F_4'(提取背景特征),并将二者融合。

(1)获得 F_3'

过程:首先,分别通过1×1卷积reshape操作\widehat{X}_3\in \mathbb{R}^{C_3\times H_3\times W_3 } 转换为 Q\in \mathbb{R}^{C'\times (H_3 \cdot W_3)}V_1\in \mathbb{R}^{C_3\times (H_3 \cdot W_3)}Q的通道数由 C_3降为{C}',同时通过1×1卷积reshape操作\widehat{X}_4'\in \mathbb{R}^{C_4\times H_3\times W_3 }转换成K\in \mathbb{R}^{C'\times (H_3\cdot W_3)}。得到Q,V1,K之后,将Q和K相乘再经过softmax处理,将得到的特征图再与V1进行相乘,再经过reshape操作还原回来原形状,与一个可学习的权重参数\alpha相乘,再与\widehat{X}_3相加得到F_3'

对应的算子公式

其中,C'=C_3 / 8 是Q和K的通道维数,C_3 = C_4 = 64,H_3 = H/8 和 W_3 = W/8 分别是X_3的高度和重量。\widehat{X}_4'\widehat{X}_4 的2倍空间上采样,为了与 X_3 进行尺寸匹配。\alpha 是一个可学习的权重参数\tau (\cdot )reshape操作,将特征投影为 C_3\times H_3\times W_3 的大小。δ(·)表示Sigmoid函数,⊗表示矩阵乘法。(\cdot )^T为转置运算。

不难看出,经过以上操作,经过训练最终可以学习到一个利于提取前景特征的权重参数\alpha

(2)获得 F_4' 

过程: 与获取 F_3'类似,分别通过1×1卷积reshape操作\widehat{X}_3\widehat{X}_4' 转化为Q,K,V2,然后Q与K相乘得到的特征图再经过revese操作得到\mathcal{A}\mathcal{A}与V2相乘,再经过reshape操作还原回来与\widehat{X}_3相同的大小,再与一个可学习的权重参数\beta相乘,再与\widehat{X}_4'相加得到F_4'

对应的算子公式

                                                                           \mathcal{A}=E-\delta (Q^T\otimes K)

其中,\beta 是可学习的权重参数,V_2\in \mathbb{R}^{C_4\times (H_3 \cdot W_3)}\tau (\cdot )reshape操作\mathcal{A}=E-\delta (Q^T\otimes K)reverse操作,其中,E是单位矩阵。

(3)输出F_1

目的:可以协同学习重要特征和不重要特征,共同定位息肉预测。

算子公式F_3'F_4'进行相加操作。

Q:什么是上下文信息?

对象场景之间的相互作用信息作为条件来对新目标进行识别、处理。

Q:为什么要对Q与K相乘得到的特征图,进行reverse处理?

reverse操作的作用:得益于reverse操作F_4'更倾向于提取不重要的特征(即背景),与F_3'更侧重于捕获重要特征(即前景)完全不同。

Conclusion

因为ACFIM的目的是获取上下文信息,因此通过获取F_3'(提取前景特征),F_4'(提取背景特征),再融合相加,达到获取上下文信息,协同学习重要特征和不重要特征,共同定位息肉预测的目的。

Difficult Problem:原文中给出的reverse操作的算子公式真的有效吗?

                                                                                        \mathcal{A}=E-\delta (Q^T\otimes K)

一个同等大小的单位矩阵减去Q与K相乘再经过sigmoid得到的特征图,从感官上来看应该不能达到上图的效果吧??

3. 全局特征集成模块(GFIM

目的ACFIM模块通过提取上下文信息,完成了对息肉分割位置的定位,但是分割性能不理想,因此为了进一步提高分割性能,引入GFIM提取全局信息

补充:1. GFIM模块根据使用不同池化方式分为GFIM maxGFIM avg,分别输出\mathcal{X}_{max}\mathcal{X}_{avg}。目的是为了提高特征表达。

           2. GFIM模块是通道注意力模块。过程类似SE模块

过程GFIM max模块有两个支路,输入从上到下依次为F1和F3。首先,使用两个3×3卷积来处理每个分支的输入,用于局部调整特征。然后,在较低的分支中使用全局最大池化(GMP)/全局平均池化(GAP),来压缩全局信息,再通过一组全连接层+ReLU全连接层+Sigmoid,最终得到\mathcal{G} \in \mathbb{R}^{C_3\times 1\times 1}。接下来, 上分支卷积所得结果,通过与 \mathcal{G}相乘来细化上分支的局部特征,得到\mathcal{F}_m,最后,再进行一次两个3×3卷积并与\mathcal{F}_m相加,得到\mathcal{X}_{max}。对应的算子公式如下:

其中,\mathcal{M}(\cdot )表示全局最大池化\phi _c(\cdot )表示两次3×3卷积\odot元素乘法\mathcal{F}_m \in \mathbb{R}^{C_3\times H_3\times W_3}\mathcal{X}_{max} \in \mathbb{R}^{C_3\times H_3\times W_3}。同样,GFIM avg模块输出\mathcal{X}_{avg} \in \mathbb{R}^{C_3\times H_3\times W_3},将上述步骤中全局最大池化替换为全局平均池化即可得到。

注意:通道注意力向量\mathcal{G}与上分支卷积结果通过点乘得到\mathcal{F}_m,与SE模块类似,通道注意力向量中的每个权重值与对应通道上的feature map相乘。

GFIM maxGFIM avg输出融合相加\mathcal{X}= \mathcal{X}_{max} + \mathcal{X}_{avg},融合相加的目的是为了提高特征表达,加强特征。在不同的场景下最大池化和平均池化保留的图像特征细节有所不同,融合相加可以保留更多的图像细节。\mathcal{X}息肉感知特征(用于定位息肉位置)。

CFIS最终输出\mathcal{X} 经过1x1的卷积 + 上采样,在息肉掩码 G_p 监督下,得到息肉区域预测 D_p

4. 双边边界提取模块(BBEM

目的:提高边界分割质量。

动机:深层特征的空间分辨率偏低(例如:整体架构中X_3X_4X_5的分辨率分别是输入尺寸的1/8、1/16和1/32),在这些层上产生息肉掩模可能会导致边界粗糙,因此直接在浅层的特征图上生成息肉掩模,以深层提取的位置信息作为双边指导,有助于增强息肉边界特征,抑制非息肉边界特征。

补充:该模块有两个分支,一个分支用于分割高亮息肉区域A_f,另一个分支用于分割高亮非息肉区域A_b

过程:首先,对深层位置信息 \mathcal{X} 进行2倍的上采样,然后,上分支特征做reverse操作之后与 \widehat{X}_2 进行点乘,得到 A_b(代表前景特征),下分支特征直接与 \widehat{X}_2 进行点乘,得到 A_f(代表背景特征),完成上下文特征的加权。最后,将 A_fA_b相加,得到边界信息 B。以上操作可表示为:

                                                                           B=A_f+A_b 

其中,\mathcal{C}(\cdot )表示由3×3卷积 + BN + ReLU组成的操作, \mathbf{U}(\cdot )表示2倍的上采样操作。

最终输出:边界信息 B 经过1x1的卷积 + 上采样,在边界掩码 G_b 监督下,得到息肉边界预测 D_b

四、损失函数

1. 基本损失函数 \mathcal{L}_b,由交叉熵损失交并比损失组成:

其中,X\in \{D_b, D_p\} 为预测掩码,Y\in\{Gb, Gp\} 为相应的真值掩码,\mathcal{L}^w_{bce}\mathcal{L}^w_{iou}分别表示加权二分类交叉熵损失和加权交并比损失。

2. 整体损失函数\mathcal{L}_{overall}息肉边界预测损失息肉区域预测损失之和:

五、实验

数据集:三个息肉数据集Kvasir-SEG,CVC-ClinicDB和EndoScene。

评价标准:选择骰子相似系数(DI)、息肉交并比(IoUp)、F2-score (F2)、召回率Recall(Rec)、准确率(AC)和真负比(TNR)。

实验1  消融实验:证明BBEMCFIS模块的有效性。

如表第一行所示,去除BBEM模块可使DI,Io Up,F2,Rec and AC指标有明显的下降,因此说明BBEM作为BCNet中的一个关键模块,对实现良好的分割性能起到了积极的作用。去除CFIS模块导致DI、IoUp、F2、Rec和AC指标有明显的下降,这表明CFIS有助于获得更好的分割性能。不同配置下的BCNet分割结果如下:

实验2 与最先进方法的比较:与流行的网络的分割效果作对比。

与其他的网络相比,BCNet在各项指标上都达到最优效果,其中DI达到0.914,IoUp达到0.862,F2达到0.919,Rec达到0.930,AC达到0.974,TNR达到0.833,证明BCNet具有相当大的性能优势。与其他最先进的方法之间的性能比较结果如下:

六、结论

本文提出一种新颖的边界约束网络用于自动息肉分割。为了获得更好的聚合物感知表示,提出了一种新的跨层特征集成策略,该策略由两个关键模块组成,ACFIM和GFIM。 ACFIM自适应地连接前三个最高层的上下文信息。GFIM通过全局注意力引导对融合信息进行跨层聚合。为了获得清晰的边界,引入了一种新的双边边界提取模块,即BBEM。BBEM基于高层位置特征,协同挖掘浅层的息肉和非息肉信息。在三个数据集上的实验结果表明,所提出的网络有能力 有效且稳定地处理息肉分割任务。具体而言,在Kvasir-SEG数据集上,其DI得分为0.914,Io Up得分为0.862,F2得分为0.919。同时,对CVC-ClinicDB数据集和EndoScene数据集进行交叉验证检验,其DI得分约为0.820,IoUp得分约为0.750,F2得分约为0.830。

评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

向岸看

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值