CNN--DenseNet--Memory-Efficient DenseNet

最新推荐文章于 2023-11-21 10:02:08 发布

不甘现状的咸鱼却没办法

最新推荐文章于 2023-11-21 10:02:08 发布

阅读量553

点赞数

分类专栏： CNN 文章标签： CNN DenseNet

本文链接：https://blog.csdn.net/qq_36167072/article/details/104637372

版权

CNN 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Paper：

https://arxiv.org/abs/1608.06993（DenseNet）

https://arxiv.org/pdf/1707.06990.pdf（Memory-Efficient DenseNet）

Code：

https://github.com/liuzhuang13/DenseNet

https://github.com/gpleiss/efficient_densenet_pytorch

思路来源：

通过对ResNet有效性的研究，发现主要来源 "短连接"。于是论文将这个思想应用到极致。就是每一层的输入来自前面所有层的输出，利用concat在channel进行此前每一层的输出。考虑到concat需要保证特征图的size一致，因此作者提出Dense-block，在block内部采用密集链接。为防止concat过多的特征图，在block内的层与层之间又包含bottleneck layer；在block之间也采用bottleneck layer。

优点：

1，减轻了vanishing-gradient（梯度消失）------- shortcuts

2，加强了feature的传递，更有效地利用了feature --------- 密集连接和特征复用。所谓特征复用，每一层输出的特征图直接concat在之前特征图中，最终得到的特征图既包含第一层又包含最后一层的输出。

3，一定程度上较少了参数数量 -------- 无论在block内的每一层输出(k)还是block之间的输出(4*k)的特征图的个数较ResNet(512、1024等)少很多。由参数量的计算公式，可得。

DenseNet需要高显存的原因：

和ResNet及其他CNN不同的是，DenseNet是密集连接，就是每一层的输入来自前面所有层的输出，因此在前向过程中需要保存之前的特征图。而ResNet及其他CNN只需要保留前一层的特征图即可。当然都需要保存权重参数。未解决此问题，由此产生下文。

知识点简述：

对于特征的极致利用可以提高模型的表现能力，用时由于生成大量的intermediate feature(中间特征)，因此存储这些intermediate feature会占用大量的显存。为了能够在GPU下跑更深的densenet网络，这篇文章通过对中间特征采用共享存储空间的方式降低了模型显存，使得在GPU显存限制下可以训练更深的densenet网络。当然这种共享部分存储也引入了额外的计算时间，因为在反向传播的时候需要重新计算一些层的输出，实际表现差不多增加了15%-20%的训练时间。

不甘现状的咸鱼却没办法

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CNN--DenseNet--Memory-Efficient DenseNet

Paper：https://arxiv.org/abs/1608.06993（DenseNet）https://arxiv.org/pdf/1707.06990.pdf（Memory-Efficient DenseNet）Code：https://github.com/liuzhuang13/DenseNethttps://github.com/gpleiss/efficien...
复制链接

扫一扫

专栏目录