1,LeNet - Gradient-Based Learning Applied to Document Recognition
CNN通过局部感受野、权值共享、降采样,来实现位移、缩放和变形的特征不变形
2,AlexNet - ImageNet Classification with Deep Convolutional Neural Networks
网络结构关键点
- ReLU激活函数引入非线性,相比传统激活函数,增加训练速度。
- 多GPU训练
- LRN局部响应归一化
- 带交叠的Pooling
- 整体架构
控制过拟合 - 数据增强:(1)平移和水平翻转(2)RGB通道的数值调整
- Dropout:在训练过程中概率性地让一部分节点输出值置0,减少隐层节点间的相互作用
更深的网络,更大的数据集,更强的算力,可以实现更好的性能
3,InceptionV1 - Going deeper with convolutions
神经网络规模的增加
- 深度增加
- 宽度增加
尺度的增加带来: - 过拟合的风险
- 计算资源的需求增加
从全连接向稀疏连接转变
Hebbian principl - neurons that fire together, wire together
目的:即保持网络结构稀疏性,又能利用密集矩阵的高计算性能
Inception 结构的主要思路是怎样用密集成分来近似最优的局部稀疏结构
- 不同大小卷积核,不同感受野,拼接得到不同尺度特征的融合
- NIN,1*1卷积降维
4, InceptionV2 - Batch Normalization Accelerating Deep Network Training by Reducing Internal Covariate Shift
Internal Covariate Shift:在训练过程中,隐层的输入分布变化
Batch Normalization:对深层神经网络每个隐层神经元的激活值做简化版本的白化操作
原理:
对于每个隐层神经元,把逐渐向非线性函数映射后向取值区间极限饱和区靠拢的输入分布强制拉回到均值为0方差为1的比较标准的正态分布,使得非线性变换函数的输入值落入对输入比较敏感的区域,以此避免梯度消失问题。
BN为了保证非线性的获得,对变换后的满足均值为0方差为1的x又进行了scale加上shift操作(y=scale*x+shift)
好处:
- 极大提升了训练速度,收敛过程大大加快
- 增加分类效果,类似于Dropout的一种防止过拟合的正则化表达方式
- 调参过程简单,对于初始化要求没那么高,可以使用大的学习率