Densely Connected Convolutional Networks(DenseNet)论文阅读笔记
- 一.Densely Connected Convolutional Networks(DenseNet)论文总结
- 1.DenseNet中每一个Block中的每一层都与前面的每一层相连,提高了特征的利用
- 2.每一层的输出x0,x1,x2,输入到下一层时,先进行concat操作,然后送入Network作用。
- 3.transition layer改变相邻block之间的尺寸,而对于每一个block中的尺寸是一样的。
- 4.DenseNet的一个优点是网络更窄,参数更少,很大一部分原因得益于这种dense block的设计,在dense block中每个卷积层的输出feature map的数量都很小(小于100),而不是像其他网络一样动不动就几百上千的宽度。同时这种连接方式使得特征和梯度的传递更加有效,网络也就更加容易训练。梯度消失问题在网络深度越深的时候越容易出现,原因就是输入信息和梯度信息在很多层之间传递导致的,而现在这种dense connection相当于每一层都直接连接input和loss,因此就可以减轻梯度消失现象,这样更深网络不是问题。
- 二.Squeeze-and-Excitation Networks(SEnet)论文总结
- 三.EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks(EfficientNet)论文总结
- 四.Learning Transferable Architectures for Scalable Image Recognition 论文总结
一.Densely Connected Convolutional Networks(DenseNet)论文总结
1.DenseNet中每一个Block中的每一层都与前面的每一层相连,提高了特征的利用
2.每一层的输出x0,x1,x2,输入到下一层时,先进行concat操作,然后送入Network作用。
3.transition layer改变相邻block之间的尺寸,而对于每一个block中的尺寸是一样的。
4.DenseNet的一个优点是网络更窄,参数更少,很大一部分原因得益于这种dense block的设计,在dense block中每个卷积层的输出feature map的数量都很小(小于100),而不是像其他网络一样动不动就几百上千的宽度。同时这种连接方式使得特征和梯度的传递更加有效,网络也就更加容易训练。梯度消失问题在网络深度越深的时候越容易出现,原因就是输入信息和梯度信息在很多层之间传递导致的,而现在这种dense connection相当于每一层都直接连接input和loss,因此就可以减轻梯度消失现象,这样更深网络不是问题。
二.Squeeze-and-Excitation Networks(SEnet)论文总结
1.Excitation的过程中应用了ReLU非线性函数,加了Relu之后,可以反向梯度计算,就可以更新,如果不用Relu,相当于特征就是直接被pooling操作确定了,一锤子买卖,不能反向传播。
1.Excitation的过程中应用了ReLU非线性函数,加了Relu之后,可以反向梯度计算,就可以更新,如果不用Relu,相当于特征就是直接被pooling操作确定了,一锤子买卖,不能反向传播。
2.Squeeze:Global Information Embedding
- Squeeze global spatial information into a channel descriptor
- Channel-wise statistics(Channel correlation)
- Using global average pooling.
3.Excitation: Adaptive Recalibration
- 调整、学习得到每一个feature map的权重,用于与原始的feature map相乘
三.EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks(EfficientNet)论文总结
1.三个方面可用于对模型进行scale up,即depth/width/resolution,通过设定的一个等式,并利用NAS搜索算法,可以找到对于模型的accuracy and efficiency最优的一组参数。
四.Learning Transferable Architectures for Scalable Image Recognition 论文总结
1.Motivation
- Developing neural network image classification models often requires significant architecture engineering.
2. Idea
Learn the model architectures directly on the dataset of interest.