神经网络与深度学习week4

最新推荐文章于 2024-09-30 13:43:16 发布

easymoneyspider

最新推荐文章于 2024-09-30 13:43:16 发布

阅读量875

点赞数 21

文章标签：算法

本文链接：https://blog.csdn.net/qq_48581943/article/details/138716731

版权

神经网络与深度学习week4

1 UNet
U-Net是一种基于卷积神经网络的图像分割模型，由Olaf Ronneberger等人于2015年提出。该模型的主要特点是具有“U”形状的结构，因此得名。它包含一个编码器和一个解码器，在编码器中逐渐减小特征图的大小，并在解码器中逐渐增加特征图的大小。同时，该模型还采用了跳跃连接技术，使得解码器可以利用编码器中高层次的特征信息，从而更好地进行图像重建。

图1 U-Net网络结构
U-Net网络结构如图1所示,U-Net的结构是由对称的左右两个部分组成，其中左侧是一个典型的卷积神经网络结构，包括卷积层、池化层、激活函数等；右侧则是一个反卷积神经网络结构，包括反卷积层、上采样层、激活函数等。U-Net广泛应用于医学影像分割、自然图像分割等领域。在医学影像分割方面，U-Net已被用于肝脏、血管、心脏等器官的分割，并获得了优异的性能,因次我们选择该网络模型进行实验。
总结一下，U-Net的优点如下：① U-Net 网络结构采用了编码器-解码器结构，并且在解码器中加入了跳跃连接，使得 U-Net 能够从输入图像中提取出更全面、更准确的特征，从而有效地进行分割任务。② U-Net 网络结构可以通过简单改变编码器和解码器中的卷积核大小和数量、池化方法等超参数来适应不同的分割任务。此外，由于该结构具有较好的可扩展性，它可以被用作其他领域中数据分析和处理的基础模型。③ 由于 U-Net 网络结构采用了跳跃连接技术，因此即使在图像中存在缺陷或异常情况时，U-Net 也能够通过跳跃连接有效地传递信息，从而更好地完成输入图像的分割任务。
2 Swin-UNet

在这里插入图片描述
图2 Swin-UNet网络结构、

Swin-UNet网络结构如图2.2所示，Swin-UNet由Encoder、Bottleneck、Decoder和跳跃连接组成。先看编码器部分，输入图像先进行patch partition，每个patch大小为4x4，输入维度为H/4 x W/4 x 48，经过linear embedding和两个Swin Transformer block后特征图尺寸为H/4 x W/4 x C，然后通过patch merging进行下采样，再经过两个Swin Transformer block后特征图尺寸变为H/8 x W/8 x 2C，最后再进行一次同样的下采样操作即可完成编码器的操作。可以看到，Swin-UNet编码器每次按照2倍来缩小patch的数量，然后按照3倍来扩大特征维度的数量。
Bottleneck则是用了两个连续的Swin Transformer block，Swin Transformer将输入图像划分成多个小块，并将每个小块作为一个独立的特征向量序列送入Transformer模型中进行处理。这样做的好处是，可以有效降低模型的复杂度，减少计算资源的需求。同时，通过采用分层的策略，还能够在不增加模型参数数量的情况下增大模型的感受野，进而提高模型的性能。这里为防止网络太深不能收敛，所以只用了两个block，在Bottleneck中，特征尺寸保持H/32 x W/32 x 8C不变。
然后是解码器部分。Swin-UNet解码器主要由patch expanding来实现上采样，作为一个完全对称的网络结构，解码器也是每次扩大2倍进行上采样，核心模块由Swin Transformer block和patch expanding组成。
最后是跳跃连接。跳跃连接可以算是UNet的特色，Swin-UNet也自然不例外。