EDCNN --- 文献阅读

努力中的小胖纸

已于 2024-01-27 17:57:51 修改

阅读量1.3k

点赞数 24

分类专栏： # 文献阅读文章标签：深度学习

于 2024-01-18 23:42:22 首次发布

本文链接：https://blog.csdn.net/qq_43350330/article/details/135576517

版权

文献阅读专栏收录该内容

14 篇文章

订阅专栏

文章题目：Edge enhancement-based Densely Connected Network with Compound Loss for Low-Dose CT Denoising
文章地址：https://arxiv.org/abs/2011.00139
代码地址：https://github.com/workingcoder/EDCNN
应用领域：低剂量 CT 去噪
发表时间：2020
作者：Tengfei Liang, Yi Jin, Yidong Li, Tao Wang, Songhe Feng, Congyan Lang —【北京交通大学】

摘要

过去几十年来，为了降低计算机断层扫描（CT）中X射线的风险，低剂量CT图像去噪引起了研究人员的广泛关注，已成为医学图像领域的重要研究问题。近年来，随着深度学习技术的快速发展，出现了许多算法将卷积神经网络应用于此任务，取得了可喜的结果。然而，仍然存在去噪效率低、结果过度平滑等问题。在本文中，我们提出了基于边缘增强的密集连接卷积神经网络（EDCNN）。在我们的网络中，我们使用所提出的新型可训练sobel卷积设计了边缘增强模块。基于该模块，我们构建了一个具有密集连接的模型来融合提取的边缘信息并实现端到端的图像去噪。此外，在训练模型时，我们引入了一种结合了MSE损失和多尺度感知损失的复合损失来解决过度平滑的问题，并在去噪后获得图像质量的显着改善。与现有的低剂量CT图像去噪算法相比，我们提出的模型在保留细节和抑制噪声方面具有更好的性能。
索引术语——低剂量 CT、去噪、卷积网络、EDCNN、边缘增强、可训练 Sobel、复合损失。

引言

计算机断层扫描(CT)[1]在现代医学诊断中发挥着非常重要的作用。从其成像原理来看，它是利用X射线束对人体的某一部位进行扫描。它根据X射线在人体不同组织中吸收和透过率的不同，用高灵敏度的仪器检测和接收穿过人体的信号。经过转换和计算机处理后，即可得到被检体的断层图像。由于该技术使用的X射线，辐射过程中潜在的安全隐患也引起了越来越多的人们的关注和担忧[2]-[5]。进行CT扫描时，会涉及到所使用的X射线的强度（或剂量）[6]。正如文献[7]所示，研究人员发现，一定范围内X射线剂量越高，CT图像的图像质量越高。然而，更高强度的X射线对患者的身体造成更大的潜在伤害。相反，使用较低剂量的辐射可以降低安全风险，但会引入更多的图像噪声，给医生后期诊断带来更多挑战。在此背景下，低剂量CT（LDCT）图像去噪算法被提出来解决这一矛盾。 [8][9]的主要思想是，他们首先使用低剂量辐射下的CT图像作为设计算法的输入，然后算法将输出降噪后的CT图像。这样可以同时考虑辐射安全和CT图像质量。近年来，通过研究人员的实验[8][10]，卷积神经网络（CNN）已被证明在解决图像去噪任务方面具有良好的潜力，并且能够取得比传统方法更好的性能。对于现有的CNN图像降噪器，该领域的研究人员设计了多种不同结构的模型，包括全连接的卷积神经网络（FCN）[10][12]、带有残差连接的卷积编码器-解码器网络[9][13 ] 或输送路径 [14]-[16] 以及一些使用 3D 信息的网络变体 [14] [17] 等。
尽管已经有很多模型和算法，但低剂量CT图像去噪的任务还没有完全解决。现有模型也面临着结果过度平滑、边缘和细节信息丢失等问题。因此，如何提高去噪后的低剂量CT图像质量仍然是研究人员需要解决的关键问题。为了在处理后能更好地保留图像的细微结构和细节降噪，我们的论文提出了一种新颖的 CNN 模型，基于边缘增强的密集连接卷积神经网络（EDCNN）。 EDCNN被设计为FCN结构，可以通过后处理的方式有效实现低剂量CT图像去噪。实验表明，通过使用这种提出的降噪器，我们可以获得更好的输出结果。总的来说，本文的贡献总结如下：
• 基于所提出的可训练Sobel 卷积设计边缘增强模块，该模块可以在优化过程中自适应地提取边缘特征。
• 构建全卷积神经网络（EDCNN），使用传送路径密集连接来融合输入和边缘特征的信息。
• 引入用于训练阶段的复合损失，它集成了MSE损失和多尺度感知损失来克服过度平滑问题。
本文的结构如下：第二部分主要综述了相关研究，包括现有模型的组成和结构以及主流的损失函数。第三节介绍了设计的 EDCNN 模型，并解释了本文在方法方面的贡献。在第四节中，我们展示了实验配置和相应的实验结果。最后第五节对我们的工作进行了全面的总结。

网络结构

本节详细介绍了所提出的基于边缘增强的密集连接网络（EDCNN），包括边缘增强模块、整体模型结构以及用于优化过程的损失函数。
在这里插入图片描述

边缘增强模块

在描述整个模型的结构之前，本小节首先介绍边缘增强模块，该模块直接作用于输入图像。
在这个模块中，我们设计了可训练的 Sobel 卷积。如图2a所示，与传统的定值Sobel算子[25]不同，可训练的Sobel算子中定义了一个可学习的参数α，我们将其称为Sobel因子。该参数的值可以在训练的优化过程中自适应调整，从而可以提取不同强度的边缘信息。此外，我们定义了四种类型的算子作为一个组（图2a），包括垂直、水平和对角线方向。该模块中可以使用多组可训练的 Sobel 算子。
在这里插入图片描述
在该模块的流程中（图2b），首先，它使用一定数量（4的倍数）的可训练Sobel算子对输入CT图像进行卷积运算以获得一组用于提取边缘信息的特征图。然后模块将它们与输入的低剂量CT图像在通道维度上堆叠在一起，得到该模块的最终输出。 该模块的目标是在数据源层面丰富模型的输入信息，强化边缘信息对模型的影响。

整体网络架构

所提出的网络架构如图1所示，称为基于边缘增强的密集连接卷积神经网络（EDCNN）。整个模型由一个边缘增强模块和八个卷积块组成。边缘增强模块已在上一节中进行了解释。我们使用的可训练 Sobel 算子数量为 32 个（四种类型共各8 组）。
对于边缘增强模块之后的模型结构，我们设计的目的是尽可能保留过程中的图像细节。受DenseNet[26]的启发，我们设计了一种密集连接的低剂量CT去噪模型，试图充分利用提取的边缘信息和原始输入。具体来说，如图1中的线所示，我们通过跳跃连接将边缘增强模块的输出传递给每个卷积块，并在通道维度上将它们连接起来。除了最后一层之外，后面的卷积块的内部结构完全相同。这些块由1x1和3x3卷积组成，卷积滤波器的数量全部设置为32。最后一层3x3卷积滤波器的数量为1，对应于单个通道的输出。在每个块中，具有 1x1 内核的逐点卷积用于融合前一层和边缘增强模块的输出，而具有 3x3 内核的卷积则用于像往常一样学习图像中的特征。 此外，为了保持输出大小和输入大小相同，对模型中的特征图进行填充，以确保在前向传播过程中空间大小不会改变。为了加速模型的收敛并简化模型主体结构的任务，我们让模型直接学习噪声分布和重构信息。因此最后一个卷积块的输出与原始低剂量CT图像相加，得到最终的噪声去噪图像。在图 1 中，顶线代表这种残差连接，由圆圈和加号组成的符号代表逐元素加法。

复合损失函数

CT图像去噪的最终目标是获得与受辐射剂量较高的目标图像相似的输出结果。假设 $I_{LDCT}\in\mathbb{R}^{1\times w\times h}$ 表示尺寸为w × h的LDCT图像， $I_{LDCT}\in\mathbb{R}^{1\times w\times h}$ 表示目标NDCT图像，则去噪任务可以表示为：
$F(I_{LDCT})=I_{Output}\approx I_{NDCT}$
其中F表示降噪方法， $I_{Output}$ 表示降噪器的输出图像。
为了实现这一目的，之前的方法中广泛使用MSE（方程2）作为损失函数。模型输出与目标图像之间的距离是逐像素计算的。然而，这种损失已经被大量实验验证，往往会使输出图像过度平滑并增加图像模糊。
为了克服这个问题，本文引入了复合损失函数，融合了MSE损失和多尺度感知损失，如下式所示：
$\begin{gathered} L_{mse}=\frac{1}{N}\sum_{i=1}^{N}\left\|F\left(x_{i},\theta\right)-y_{i}\right\|^{2} \left.\left(\begin{matrix}2\\\end{matrix}\right.\right) \\ L_{multi-p}=\frac{1}{NS}\sum_{i=1}^{N}\sum_{s=1}^{S}\left\|\phi_{s}\left(F\left(x_{i},\theta\right),\hat{\theta}\right)-\phi_{s}\left(y_{i},\hat{\theta}\right)\right\|^{2}\quad(3) \\ L_{compound}=L_{mse}+w_{p}\cdot L_{multi-p} \text{(4)} \end{gathered}$
在这些公式中，我们使用 $x_{i}$ 作为输入， $y_{i}$ 作为目标，N 是图像数量。同上，F表示参数为θ的降噪模型。方程3中，符号φ表示具有固定预训练权重 $\hat{\theta}$ 的模型，用于计算感知损失。 S 是尺度数。方程4中的 $w_{p}$ 表示复合损失函数第二部分的权重。
关于感知损失，如图3所示，我们利用ResNet-50[27]作为特征提取器来获得多尺度感知损失。具体来说，我们丢弃模型末尾的池化层和全连接层，只保留模型前面的卷积层。首先，我们首先加载在 ImageNet 数据集 [28] 上训练的模型权重，然后在训练过程中冻结这些权重。在计算感知损失值时，去噪输出和目标图像都被发送到提取器进行前向传播（图3）。我们选择ResNet的四个阶段之后的特征图，在每个阶段中图像的空间尺度将减半，代表不同尺度的特征空间。然后我们使用 MSE 来衡量这些特征图的相似度。通过对这些值进行平均来获得多尺度感知损失。
通过结合 MSE 和多尺度感知损失，我们可以同时关注 CT 图像的每像素相似性和结构信息。我们可以调整超参数 wp 来平衡两个损失分量（公式 4）。
在这里插入图片描述

实验和结果

本节解释了用于训练和测试所提出的模型的数据集以及实验的配置。然后我们在本节中展示实验结果，评估模型的降噪性能。

数据集

在我们研究的实验中，我们利用了2016年NIH AAPM-Mayo Clinic低剂量CT大挑战赛的数据集[29]，该数据集是目前低剂量CT图像去噪领域的主流方法所使用的。它包含从 10 名患者收集的成对正常剂量 CT (NDCT) 图像和合成四分之一剂量 CT 图像 (LDCT)，尺寸为 512x512 像素。因此，有LDCT图像作为模型的输入，NDCT图像作为目标，可以支持监督训练过程。在数据准备方面，我们在训练前对数据集进行了分割，使用 9 名患者的 CT 图像作为训练集，其余 1 名患者的图像作为测试集。

实验设置

模型的结构和每层过滤器的数量已在第III-B节中描述，这是我们基于Pytorch框架[30]实现的。我们对该模型中的卷积层使用默认的随机初始化，并且所有边缘增强模块的Sobel因子在训练前初始化为1。此外，复合损失函数的超参数wp设置为0.01。
在训练过程中，我们应用了随机裁剪补丁的数据增强策略。具体来说，将从一张 LDCT 图像中随机裁剪出 4 个大小为 64x64 像素的 patch，我们使用的输入批次取自 32 个图像，总共有 128 个 patch，NDCT 图像的目标批次也是如此。在优化过程中，我们使用具有默认配置的 AdamW 优化器[31]。我们将学习率设置为0.001，并进行200个epoch的训练以使模型收敛。在测试模型时，由于模型的全卷积结构，输入图像的大小没有限制。因此，我们让训练后的模型使用大小为512x512像素的LDCT图像作为输入，并直接输出去噪结果。
在这里插入图片描述

结果

本小节显示了我们模型的降噪结果。为了公平起见，我们选择REDCNN[9]、WGAN[11]和CPCE[14]进行比较，因为他们的单一模型的设计与我们提出的模型相同。这些模型也采用了卷积神经网络的结构，但各有其特点。我们重新实现这些模型，在相同的训练集上训练它们。表的左侧部分。我展示了他们使用的损失函数的配置，也包括我们的模型。
在降噪任务中，定量分析模型有三个常用标准，包括峰值信噪比（PSNR）、结构相似度（SSIM）和均方根误差（RMSE）。此外，我们添加了一个度量VGG-P，它是基于VGGNet19[22]的常用感知损失，测量最终卷积层特征空间中的距离[21]。如表右半部分所示。 I，所有模型都在 AAPM 挑战赛数据集的分割测试集上进行测试。我们计算并计算这些指标的平均值和标准差。通过该表，我们可以发现基于MSE损失的REDCNN在PSNR和RMSE指标上具有最好的性能。通过使用基于VGGNet的感知损失，WGAN和CPCE在VGG-P上有很好的结果。至于我们提出的 EDCNN，基于复合损失，它在每个标准上都达到了最佳或次优的结果，这可以平衡每像素和结构性能。
由于PSNR和RMSE的计算过程与MSE直接相关，因此仅使用MSE作为损失函数训练的模型就可以在这些指标上获得良好的结果。但这些标准并不能真实反映输出图像的视觉质量，因此只能作为相对参考。为了比较去噪结果，如图4所示，我们选择具有复杂结构的CT图像来显示这些模型的性能。我们可以注意到，LDCT 图像（图 4a）中的噪声比 NDCT 图像（图 4b）中的噪声更多。对 LDCT 图像进行去噪后，REDCNN 的输出（图 4c）明显过度光滑
虽然它具有最高的PSNR和最低的RMSE，但图像的视觉感受不佳，存在图像模糊和结构细节丢失的问题。 WGAN和CPCE都是基于Wasserstein GAN，具有感知损失和对抗性损失。图4d为WGAN的去噪CT图像，其保留了原始图像的结构信息，但其对噪声的抑制仍然比较差。如图 4e 和图 4f 所示，CPCE 模型和我们的 EDCNN 具有相当的性能。它们的输出图像都与目标NDCT图像非常相似（图4b），保留了CT图像的微妙结构。但从噪点的细节来看，我们还是可以注意到它们之间的区别。 EDCNN比CPCE具有更好的降噪性能，这也与表1中指标的值一致。
为了获得定量的视觉评价，我们进行了盲人阅读研究。具体来说，我们在测试集中选择了20组模型不同身体部位的去噪结果。每组包括六幅 CT 图像。以LDCT和NDCT图像作为参考，其他四张图像是上述四个模型的输出，在每组中随机打乱。要求读者对降噪后的CT图像进行降噪、结构保存和整体质量三个级别的评分，每项满分为5分。如表所示。 II，我们以平均值±标准差的形式呈现主观得分的统计数据。 REDCNN 的降噪性能最好，基于 GAN 的 WGAN 和 CPCE 在结构保留方面得分很高。关于我们设计的 EDCNN 模型，由于复合损失，它同时考虑了降噪和结构保留。此外，EDCNN 在整体图像质量方面获得了高分。

消融实验

在这一部分中，我们比较和分析模型在不同模型结构和损失函数配置下的性能。我们讨论了我们提出的 EDCNN 模型最终设计的有效性。
1）结构和模块：为了探究EDCNN模型各组成部分的作用，我们对结构进行了分解实验。首先，我们设计了一个基本模型（BCNN），从图1所示的结构中去除了密集连接和边缘增强模块，然后添加了密集连接（BCNN+DC）和边缘增强模块（BCNN+DC+EM， EDCNN）依次。为了充分展示模型的潜在能力，所有模型都使用相同的训练策略进行 MSE 损失训练。
图 5 显示了 PSNR 曲线，在每个时期对训练模型的测试集进行测试。我们还添加 REDCNN 作为比较。值得注意的是，我们设计的基本模型（BCNN）已经取得了比 REDCNN 更好的性能。并且通过添加密集连接和边缘增强模块，PSNR的值将不断增加。此外，边缘增强模块加速了模型的收敛过程。在表中。 III，我们可以检查这些模型的 PSNR、SSIM、RMSE 值。完整的 EDCNN 模型在这些指标上具有最佳结果。
在这里插入图片描述

2）感知损失模型：如第 III-C 节所示，在我们的方法中选择用于计算感知损失的模型是 ResNet-50。关于感知损失的模型，我们将ResNet-50与现有方法常用的VGGNet-19进行比较。在本实验中，我们仅通过单一感知损失来训练 EDCNN 模型。根据之前的方法，我们使用VGGNet-19最后一个卷积层的输出来计算损失。对于我们使用的ResNet-50，我们同样利用其最后一个卷积层的特征图进行比较。
在这里插入图片描述
通过感知损失优化的模型往往会输出带有某种类似纹理的噪声的图像。仔细观察图6，我们可以发现图6b的噪声颗粒度比图6c的噪声颗粒度大。并且从视觉外观来看，图6c更接近NDCT图像（图6d）。因此我们在感知损失函数中使用ResNet-50模型，它比VGGNet具有更强的特征提取能力。
在这里插入图片描述
3）多尺度感知损失：当使用感知损失时，我们需要决定使用哪一层特征图。在这里，我们探讨多尺度感知损失的不同组合。具体来说，我们利用 ResNet-50 中四个阶段的输出特征（图 3）。设计了四种类型的损失函数，包括 S-4、S-43、S432 和 S-4321 的感知损失。“S”代表阶段，数字表示用于获取特征图的阶段数。损失函数将计算这些阶段提取的特征的MSE（方程3），并计算它们的平均值以获得最终的损失值。图7（a-f）显示了输出图像，我们可以发现，随着使用的级数增加，去噪结果的“纹理”更接近NDCT图像。因此，我们决定使用ResNet50模型中四个阶段的输出特征来计算我们方法的感知损失。
在这里插入图片描述
4）单一或复合损失：在这个实验中，我们获得了三个分别在单一 MSE 损失、单一多尺度感知损失和复合损失上训练的 EDCNN 模型。他们以同样的方式接受训练，除了损失之外。如图7（g-k）所示，我们可以比较这些去噪CT图像的视觉质量。显然，基于MSE的EDCNN模型的结果（图7h）已经过于平滑，为后期诊断遗漏了太多细节，给医生做出判断带来了困难。至于图7i和图7j，它们在细节保留方面表现出相似的质量，这进一步验证了多尺度感知损失的有效性。同时，我们可以注意到图7j比图7i稍微清晰一些。后者引入了一些可见的伪影。基于复合损失的EDCNN具有更好的性能。

结论

总之，本文提出了一种具有密集连接卷积架构的新去噪模型，即基于边缘增强的密集连接网络（EDCNN）。通过设计基于可训练Sobel算子的边缘增强模块，该方法能够自适应地获得输入图像更丰富的边缘信息。此外，我们还引入了复合损失函数，它是 MSE 损失和多尺度感知损失的加权融合。使用著名的 Mayo 数据集，我们进行了大量的实验，与之前的模型相比，我们的方法取得了更好的性能。未来，我们计划进一步探索基于我们提出的 EDCNN 模型的多模型结构，并将其扩展到其他图像转换任务。