【1】LeNet(1986)
(1)模型
(2)目的
数字识别
(3)层数
- 输入尺寸:32*32
- 卷积层:2个
- 池化层:2个
- 全连接层:2个
- 输出层:1个(10个类别)
(4)特点
- ReLU ,ReLU比tanh要快,非线性非饱和函数比非线性饱和函数要快
- 双GPU并行运行
- LRN局部响应归一化
- Overlapping Pooling
- 防止过拟合:数据增强,dropout
(5)名词解释
(1)LRN一般是在激活、池化后进行的一中处理方法。(首次使用)
i表示第i个核在位置(x,y)运用激活函数ReLU后的输出,n是同一位置上临近的kernal map的数目,N是kernal的总数。参数K,n,alpha,belta都是超参数,一般设置k=2,n=5,aloha=1*e-4,beta=0.75。
(2)Overlapping Pooling(重叠池化)
相对于传统的no-overlapping pooling,采用Overlapping Pooling不仅可以提升预测精度,同时一定程度上可以减缓过拟合。
相比于正常池化(步长s=2,窗口z=2) 重叠池化(步长s=2,窗口z=3) 可以减少top-1, top-5分别为0.4% 和0.3%;重叠池化 可以避免过拟合。
【2】AlexNet(2012)
(1)模型
(2)目的
图像分类(2014年第一名)
(3)层数
AlexNet网络共有:卷积层 5个,池化层 3个,全连接层:3个(其中包含输出层)
- 1输入尺寸:227*227*3
- 卷积层:5个
- 降采样层(池化层):3个
- 全连接层:2个
- 输出层:1个。1000个类别
(4)特点
- 成功使用relu作为CNN的激活函数。解决了网络较深时梯度弥散问题
- 训练时使用droupout随机忽略一部分神经元,避免模型过拟合。
- 在CNN中使用重叠的最大池化。避免平均池化的模糊化效果。
- 提出了LRN层,对局部神经元创建竞争机制。增强模型的泛华能力。
- 使用CUDA加速神经网络训练。利用GPU进行并行计算
- 数据增强。从256256中截取224224大小区域,水平镜像,减少过拟合,增强泛华能力。
【3】GoogleNet(2014)
(1)模型
Inception v1
(1)GoogLeNet增加了网络的宽度,也增加了网络对尺度的适应性。
(2)1*1卷积目的:减少维度,增加非线性
(3)GoogLeNet采用了average pooling来替代全连接层
(4)为了避免梯度消失,额外增加了2个辅助的softmax用于前向传导梯度
Inception v2
(1) 卷积分解,用3*3的卷积代替原来5*5的卷积。
Inception v3
(1)又可以将1个卷积拆成2个卷积,使得网络深度进一步增加。
(2)增加了网络的非线性(每增加一层都要进行ReLU)。
Inception v4
(1)利用残差网络改进v1,v2,v3。
【4】VGG(2014)
(1)模型
(2)目的
图像分类(2014年第二名)
(3)层数
19层
(4)特点
(1)展示出网络的深度(depth)是算法优良性能的关键部分。
(2)迁移能力比第一名(GoogleNet)效果好。
【5】ResNet(2015)
(1)模型
上述模块理解请点击:ResNet中BLock模块的理解
(2)目的
图像分类
(3)层数
常用的50,101,152层
(4)特点
(1)解决了网络模型过深导致梯度消失或者梯度爆炸的现象。