神经网络与深度学习week4

神经网络与深度学习week4


1 UNet
U-Net是一种基于卷积神经网络的图像分割模型,由Olaf Ronneberger等人于2015年提出。该模型的主要特点是具有“U”形状的结构,因此得名。它包含一个编码器和一个解码器,在编码器中逐渐减小特征图的大小,并在解码器中逐渐增加特征图的大小。同时,该模型还采用了跳跃连接技术,使得解码器可以利用编码器中高层次的特征信息,从而更好地进行图像重建。

图1  U-Net网络结构
图1 U-Net网络结构
U-Net网络结构如图1所示,U-Net的结构是由对称的左右两个部分组成,其中左侧是一个典型的卷积神经网络结构,包括卷积层、池化层、激活函数等;右侧则是一个反卷积神经网络结构,包括反卷积层、上采样层、激活函数等。U-Net广泛应用于医学影像分割、自然图像分割等领域。在医学影像分割方面,U-Net已被用于肝脏、血管、心脏等器官的分割,并获得了优异的性能,因次我们选择该网络模型进行实验。
总结一下,U-Net的优点如下:① U-Net 网络结构采用了编码器-解码器结构,并且在解码器中加入了跳跃连接,使得 U-Net 能够从输入图像中提取出更全面、更准确的特征,从而有效地进行分割任务。② U-Net 网络结构可以通过简单改变编码器和解码器中的卷积核大小和数量、池化方法等超参数来适应不同的分割任务。此外,由于该结构具有较好的可扩展性,它可以被用作其他领域中数据分析和处理的基础模型。③ 由于 U-Net 网络结构采用了跳跃连接技术,因此即使在图像中存在缺陷或异常情况时,U-Net 也能够通过跳跃连接有效地传递信息,从而更好地完成输入图像的分割任务。
2 Swin-UNet

在这里插入图片描述
图2 Swin-UNet网络结构、

Swin-UNet网络结构如图2.2所示,Swin-UNet由Encoder、Bottleneck、Decoder和跳跃连接组成。先看编码器部分,输入图像先进行patch partition,每个patch大小为4x4,输入维度为H/4 x W/4 x 48,经过linear embedding和两个Swin Transformer block后特征图尺寸为H/4 x W/4 x C,然后通过patch merging进行下采样,再经过两个Swin Transformer block后特征图尺寸变为H/8 x W/8 x 2C,最后再进行一次同样的下采样操作即可完成编码器的操作。可以看到,Swin-UNet编码器每次按照2倍来缩小patch的数量,然后按照3倍来扩大特征维度的数量。
Bottleneck则是用了两个连续的Swin Transformer block,Swin Transformer将输入图像划分成多个小块,并将每个小块作为一个独立的特征向量序列送入Transformer模型中进行处理。这样做的好处是,可以有效降低模型的复杂度,减少计算资源的需求。同时,通过采用分层的策略,还能够在不增加模型参数数量的情况下增大模型的感受野,进而提高模型的性能。这里为防止网络太深不能收敛,所以只用了两个block,在Bottleneck中,特征尺寸保持H/32 x W/32 x 8C不变。
然后是解码器部分。Swin-UNet解码器主要由patch expanding来实现上采样,作为一个完全对称的网络结构,解码器也是每次扩大2倍进行上采样,核心模块由Swin Transformer block和patch expanding组成。
最后是跳跃连接。跳跃连接可以算是UNet的特色,Swin-UNet也自然不例外。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值