CNN--DenseNet--Memory-Efficient DenseNet

Paper:

https://arxiv.org/abs/1608.06993(DenseNet)

https://arxiv.org/pdf/1707.06990.pdf(Memory-Efficient DenseNet)

Code:

https://github.com/liuzhuang13/DenseNet

https://github.com/gpleiss/efficient_densenet_pytorch

 

思路来源:

       通过对ResNet有效性的研究,发现主要来源 "短连接"。于是论文将这个思想应用到极致。就是每一层的输入来自前面所有层的输出,利用concat在channel进行此前每一层的输出。考虑到concat需要保证特征图的size一致,因此作者提出Dense-block,在block内部采用密集链接。为防止concat过多的特征图,在block内的层与层之间又包含bottleneck layer;在block之间也采用bottleneck layer。

        优点:

         1,减轻了vanishing-gradient(梯度消失)------- shortcuts

         2,加强了feature的传递 ,更有效地利用了feature --------- 密集连接和特征复用。所谓特征复用,每一层输出的特征图直接concat在之前特征图中,最终得到的特征图既包含第一层又包含最后一层的输出。

         3, 一定程度上较少了参数数量 --------  无论在block内的每一层输出(k)还是block之间的输出(4*k)的特征图的个数较ResNet(512、1024等)少很多。由参数量的计算公式,可得。

        DenseNet需要高显存的原因:

         和ResNet及其他CNN不同的是,DenseNet是密集连接,就是每一层的输入来自前面所有层的输出,因此在前向过程中需要保存之前的特征图。而ResNet及其他CNN只需要保留前一层的特征图即可。当然都需要保存权重参数。未解决此问题,由此产生下文。

 

知识点简述:

       对于特征的极致利用可以提高模型的表现能力,用时由于生成大量的intermediate feature(中间特征),因此存储这些intermediate feature会占用大量的显存。为了能够在GPU下跑更深的densenet网络,这篇文章通过对中间特征采用共享存储空间的方式降低了模型显存,使得在GPU显存限制下可以训练更深的densenet网络。当然这种共享部分存储也引入了额外的计算时间,因为在反向传播的时候需要重新计算一些层的输出,实际表现差不多增加了15%-20%的训练时间。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值