DensetNet原理简述以及pytorch在cifar-10上的训练

最新推荐文章于 2022-04-10 16:06:28 发布

软件班那个学渣

最新推荐文章于 2022-04-10 16:06:28 发布

阅读量1.2k

点赞数 3

分类专栏：深度学习文章标签： DenseNet Pytorch cifar-10

本文链接：https://blog.csdn.net/qq_25473787/article/details/100738404

版权

本文简要介绍了DenseNet的背景及基本原理，探讨了为解决CNN深度学习中梯度消失问题的各种策略，如ResNet和Highway Network。DenseNet通过密集连接每一层，保留所有层的特征，有效地传递信息。文章详细阐述了DenseBlock的构成，包括BN、ReLU和Conv，并展示了如何在PyTorch中实现DenseNet，同时提到了过渡层（Transition Block）的作用，用于控制模型复杂度。最后，文章提到了在cifar-10数据集上的训练过程。

摘要由CSDN通过智能技术生成

1. DensetNet背景介绍

1.卷积神经网络CNN在计算机视觉物体识别上优势显著，典型的模型有：LeNet5, VGG, Highway Network, Residual Network.
2.CNN越深则效果越好，但是，会面临梯度弥散的问题，经过层数越多，则前面的信息就会渐渐减弱和消散。
3.目前已有很多措施去解决以上困境：
（1）Highway Network,Residual Network通过前后两层的残差链接使信息尽量不丢失
（2）Stochastic depth通过随机drop掉Resnet的一些层来缩短模型
（3）FractalNets通过重复组合一些平行的层序列来保证深度的同时减轻这个问题。
但这些措施都有一个共性：都是在前一层和后一层中都建立一个短连接，如下图：
Resnet原理图示

2.DensetNet基本原理

DenseNet基本原理图
如上图所示，是一个5层的dense block，里面含有5层基本的卷积层，每一个卷积层都包含一个基本的BN，Relu和Conv，代码如下：

# 首先定义一个卷积块，其顺序是bn->relu->conv
def conv_block(in_channel, out_channel):
    layer = nn.Sequential(
        nn.BatchNorm2d(in_channel),
        nn.ReLU(True),
        nn.Conv2d(in_channel, out_channel, 3, padding=1, bias=False)
    )
    return layer

如上代码所示，dense block中的每一层都是包含着BN，Relu和Conv操作。加入BN和Relu操作，是处理上面一层传来的特征图，进行BN操作，然后在经过Relu操作，将梯度限定在一个特定的范围之内，BN和Relu都是减缓梯度问题的有效的手段（不了解Batch Normlization和Relu操作的，可以自行阅读相关的论文）。
实现完dense block中基本的层之后，接下来开始实现dense block，如上图所示，有一个变量叫做k，这个k代表的是，dense block里面的layer输出的ouput channel的个数，比方说࿰