Unet——pytorch

一片两片三三片

已于 2023-12-31 21:57:57 修改

阅读量3.4k

点赞数 2

分类专栏：网络模型文章标签：深度学习神经网络 cnn

于 2023-04-22 20:32:00 首次发布

本文链接：https://blog.csdn.net/m0_73901376/article/details/130095733

版权

网络模型专栏收录该内容

2 篇文章 1 订阅

订阅专栏

Unet的一些概念

Unet 的初衷：

是为了解决生物医学图像方面的问题，最初也是在细胞数据集上使用的，由于效果确实很好后来也被广泛的应用在语义分割的各个方向，比如卫星图像分割，工业瑕疵检测等。

Unet 的优势：

1，可以在小数据集上达到较好的效果。以往的网络模型依赖于大量的数据集进行训练，但是在医学图像的分割中，往往能够训练的数据相对较小而检测目标又会比较大，在unet网络中使用了数据增强；

2，可以对每个像素点进行分割，获得更高的分割准确率；

3，在训练过程中使用高梯度下降，这使得训练模型的学习率处在一个自我调节的过程中；

4，权重划分。权重划分公式为：

$w(x)=w_{c}(x)+w_{0}\cdot exp\left ( -\frac{(d_{1}(x)+d_{2}(x))^{2}}{2\sigma ^{2}} \right )$

$w_{c}$ 是用于平衡类别频率的权重图 $d_{1}$ 代表到最近细胞的边界的距离， $d_{2}$ 代表到第二近的细胞的边界的距离。基于经验我们设定 $w_{0}$ =10，σ≈5像素

5，引入图像镜像操作，能够更好的对数据进行训练。

Unet的网络结构

基本概念：

U-Net的结构是用编码和解码，它左边和右边很类似（完全对称），U形的左侧是一个编码的过程，右侧是一个解码的过程。

1，网络是一个全卷积网络（即网络中没有全连接操作）

2，网络的输入是一张572*572的边缘经过镜像操作的图片

3，通过两次卷积之后得到特征图像，然后经过池化进行收缩

4，重复步骤3，总共进行4次

5，通过复制和裁剪，融合之后再经过两次卷积，然后反卷积进行解码

6，重复步骤5，总共进行4次

7，经过两次卷积和一次1*1卷积得到最终的结果。

代码解释：

conv1*1:

1）对于单通道图像，其作用仅仅是进行线性运算；

2）对于多通道图像，会遍历图像所在的位置，将每个位置处所有通道的值作为其输入，与1*1卷积核中对应通道的值进行线性运算。本质上可以视为一个全连接神经网络。

（conv1*1一般只改变输出的通道数，而不改变输出的宽度和高度；而Pooling操作一般只改变输出的宽和高，而不改变通道数）

模型代码：

关于两层conv3*3:

import torch.nn as nn
 
class DoubleConv(nn.Module):
    """(convolution => [BN] => ReLU) * 2"""
 
    def __init__(self, in_channels, out_channels):
        super().__init__()
        self.double_conv = nn.Sequential(#torch.nn.Sequential是一个时序容器，modules会以它们传人的顺序被添加到容器中
            nn.Conv2d(in_channels, out_channels, kernel_size=3, padding=0),
            nn.BatchNorm2d(out_channels), #归一化处理，为了避免在进行relu之前因为数据过大而导致网络性能不稳定
            nn.ReLU(inplace=True),
            nn.Conv2d(out_channels, out_channels, kernel_size=3, padding=0),
            nn.BatchNorm2d(out_channels),
            nn.ReLU(inplace=True)
        )
 
    def forward(self, x):
        return self.double_conv(x)

关于max pool 2*2:

import torch.nn as nn

class Down(nn.Module):
    "downscaling and maxpool 2*2 then coupleconv”

    def __int__(self, in_channenls, out_channels):
        
        super().__init__()
        self.maxpool_conv = nn.Sequential(
            nn.MaxPool2d(2),
            Douleconv(in_channenls,out_channels)
        )

    def forward(self, x):
        return self.maxpool_conv(x)

关于copy and crop 以及 up conv：

class Up(nn.Module):
    """Upscaling then double conv"""

    def __init__(self, in_channels, out_channels, bilinear=True):
        super().__init__()

        # if bilinear, use the normal convolutions to reduce the number of channels
        if bilinear:
            self.up = nn.Upsample(scale_factor=2, mode='bilinear', align_corners=True)
            self.conv = DoubleConv(in_channels, out_channels, in_channels // 2)
        else:
            self.up = nn.ConvTranspose2d(in_channels, in_channels // 2, kernel_size=2, stride=2)
            self.conv = DoubleConv(in_channels, out_channels)

    def forward(self, x1, x2):
        x1 = self.up(x1)
        # input is CHW
        diffY = x2.size()[2] - x1.size()[2]
        diffX = x2.size()[3] - x1.size()[3]

        x1 = F.pad(x1, [diffX // 2, diffX - diffX // 2,
                        diffY // 2, diffY - diffY // 2])
        # if you have padding issues, see
        # https://github.com/HaiyongJiang/U-Net-Pytorch-Unstructured-Buggy/commit/0e854509c2cea854e247a9c615f175f76fbb2e3a
        # https://github.com/xiaopeng-liao/Pytorch-UNet/commit/8ebac70e633bac59fc22bb5195e513d5832fb3bd
        x = torch.cat([x2, x1], dim=1)
        return self.conv(x)

关于conv1*1：

class OutConv(nn.Module):
    def __init__(self, in_channels, out_channels):
        super(OutConv, self).__init__()
        self.conv = nn.Conv2d(in_channels, out_channels, kernel_size=1)

    def forward(self, x):
        return self.conv(x)

应用

1，主要用于医学分割；

2，姿态估计；

3，Gan网络。

联系：VGG——resnet——FCN——Unet

问题

1，图像分割为什么要采用先编码后解码的形式？

1）下采样是为了图像识别，可以降低显存和计算量；增大感受野，使卷积获得更全局性的特征提取；多级语义融合可以使得分类更加准确；

2）上采样是为了便于分割处理，输出得到分割结果mask。当然，上采样不能够恢复成为原始图像，这个过程中已经丢失了许多特征，因此unet中使用了copy and crop来做补充。

2，上采样过程中使用skip-connection保留细节，那这个过程中像素点增加，不会导致下采样过程中降低的显存和计算量增加回来吗，为什么这样能得到一个好的效果？

1）个人认为unet图像分割的下采样可能更主要的是为了增大感受野，同时在增大感受野的过程中计算量的显存得到降低；

2）而在上采样的过程中，是为了提升其精度，但是大量的padding确实造成了巨大的冗余，这也是unet网络慢的一个原因。

有个说法，cnn网络分类精度和定位精度难以共存，那unet下采样增大感受野skip-connection增加精度的方式是否对这个说法有一定的冲击？

训练部分

优化器：

传统梯度优化：

BGD：批量梯度下降算法，在训练的时候选用所有的训练集进行计算；

SGD：随机梯度下降算法，在训练的时候只选用一个数据进行训练；

MBGD：小批量梯度下降算法，在训练的时候只选用小部分数据进行训练；

虽然这三种算法在选择数据集量的时候不同，但是他们在进行参数优化的时候是相同的；一般采用小批量梯度下降算法，即选择部分数据进行训练，因为它们更新参数的时候采用相同的参数，因此它们统称为“传统梯度更新算法”，基本思想是：先设定一个学习率 $\lambda$ ，参数沿梯度的反方向移动，假设需要更新的参数为 $\theta$ ，梯度为g，则其更新策略可表示为：

$\theta \leftarrow \theta -\lambda g$

传统算法的优化算法：

针对传统梯度优化过于依赖学习率的选取的缺点问题，许多优化算法从梯度方向和学习率两方面入手。有些从梯度方向入手，如动量更新策略；有些从学习率入手，这涉及到调参的问题；还有的从两方面同时入手，如自适应更新策略；

AdaGrad算法：

适合处理稀疏数据，通过参数来调整合适的学习率，对稀疏参数进行大幅更新和对频繁参数进行小幅更新。可能是因为其累计梯度平方导致学习率过早或过量的减少所致，它在某些深度学习模型上有着不错的效果，但仍不够优秀。

RMSProp算法：

RMSProp算法通过修改AdaGrad得来，其目的是在非凸背景下效果更好。针对梯度平方和累计越来越大的问题，RMSProp指数加权的移动平均代替梯度平方和。RMSProp为了使用移动平均，还引入了一个新的超参数 $\rho$ ，用来控制移动平均的长度范围。它在深度学习中被广泛用于深度神经网络优化。

一片两片三三片

关注

2
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
Unet——pytorch

以往的网络模型依赖于大量的数据集进行训练，但是在医学图像的分割中，往往能够训练的数据相对较小而检测目标又会比较大，在unet网络中使用了数据增强；是为了解决生物医学图像方面的问题，最初也是在细胞数据集上使用的，由于效果确实很好后来也被广泛的应用在语义分割的各个方向，比如卫星图像分割，工业瑕疵检测等。U-Net的结构是用编码和解码，它左边和右边很类似（完全对称），U形的左侧是一个编码的过程，右侧是一个解码的过程。3，在训练过程中使用高梯度下降，这使得训练模型的学习率处在一个自我调节的过程中；
复制链接

扫一扫