基础网络研究 AlexNet

Milestones in generic object detection
2012年被Krizhevsky等人提出的一个深层卷积神经网络,AlexNet拥有6千万个参数,650万个神经元。
为了训练效率,使用了不饱和的神经元和一种非常有效的卷积运算GPU实现。
为了降低全连接层的过拟合,使用了dropout的正则化策略
该网络:
1.使用ReLU函数
2.使用多GPU训练
3.局部响应归一化(Local Response Normalization,LRN)
4.Max-pooling
5.网络建构:五个卷积层和三个全连接层
6.数据增强:随机裁剪和镜像,PCA颜色增强
7.Dropout策略
8.使用了权重衰减

网络创新点(相对当时而言):
1.使用ReLu非线性函数 f(x) = max(0, x):
只要?是正值的情况下,导数恒等于 1,当?是负值的时候,导数恒等于 0。从实际上来说,当使用?的导数时,?=0 的导数是没有定义的。该函数在训练中,比使用sigmoid函数和tanh函数训练要更快更有效率。好处是不需要输入标准化来避免饱和

2.使用多GPU训练
层数参数经过两个GPU并行训练。该并行化方案基本上将一半内核(或神经元)分别放在每个GPU上,还有一个额外的技巧:GPU仅在某些层中进行通信。这意味着,例如,第3层的内核从第2层中的所有内核映射获取输入。但是,第4层中的内核仅从第3层中位于同一GPU上的那些内核映射获取输入

3.局部响应归一化(Local Response Normalization,LRN)(现在不用归一化训练了,没啥用)
【TensorFlow】tf.nn.local_response_normalization详解,lrn正则法如何计算?
https://blog.csdn.net/mao_xiao_feng/article/details/53488271

该网络在一定层中应用ReLU非线性后,应用了这种归一化
响应归一化函数:
在这里插入图片描述

在这地方里插入图片描述是使用核 i 在(x,y)处的神经元激活函数;
N为该层核个数(过滤器个数)
k, n, α, β 为超参数,原作者取k = 2, n = 5, α =10的-4次方 β = 0.75

4.重叠池化层(Max-pooling层)
我们可以想象池化层为一个 包含s个像素的表格,每个小格子的数据由上一层z X z的过滤器在相应位置卷积后得到的,假如s=z,则得到传统的池化层,s<z,则得到重叠的池化层。就是将上一层的数据压缩一下,我是这么认为的。
5.整体结构

在这里插入图片描述
先是五层卷积层,再三层全连接层,最后一层全连接输入给1000维的softmax生成预测标签
第1层将数据分成两部分给两个GPU训练,可见到第二,第四和第五卷积层的内核仅连接到位于同一GPU上的前一层中的那些内核映射,第三卷积层的内核连接到第二层中的所有内核映射。
响应标准化层跟着第一和第二卷积层。
最大池化层跟着响应归一化层和第五卷积层。
ReLU非线性应用于每个卷积和完全连接层的输出。
第一个卷积层输入224x224x3图像,用96个11x11x3的过滤器(核),步长s为4,padding为0;
第二个卷积层将第一个卷积层的(响应归一化和池化)输出作为输入,并用256个大小为5×5×48的过滤器(核)对其进行过滤;
第三,第四和第五卷积层彼此连接而没有任何中间池化层或归一化层。
第三卷积层具有384个大小为3×3×256的内核,其连接到第二卷积层的(归一化的,池化的)输出。
第四个卷积层有384个大小为3×3×192的内核,
第五个卷积层有256个内核,大小为3×3×192。
全连接层各有4096个神经元。

该网络减少过拟合两个首要措施:
1.扩大数据集:
在CPU上计算图像变换,而同时GPU在训练网络,两者不干扰
1)生成图像平移和水平映射
从256x256图像中随机裁剪224x224的图像(包含他们的镜像对称)
2)在整个ImageNet训练集中对RGB像素值集执行PCA
PCA(主成分分析),PCA 颜色增强的大概含义是,比如说,如果你的图片呈现紫色,即主要含有红色和蓝色,绿色很少,然后 PCA 颜色增强算法就会对红色和蓝色增减很多,绿色变化相对少一点,所以使总体的颜色保持一致
对每个RGB像素
在这里插入图片描述在这里插入图片描述
添加 下数
在这里插入图片描述
其中pi 和λi 分别是RGB像素值的3×3协方差矩阵的第i个特征向量和特征值,αi是上述随机变量
αi只用一次,下次生成新图像的时候会重新产生

2.Dropout
将每个隐藏神经元的输出设置为零的概率为0.5
因此,每次输入时,神经网络都会采样不同的架构,但所有这些架构都会共享权重。
这样做可以使网络去学习更多鲁棒性特征,但让训练的迭代次数增加。

训练细节:
1.权重衰减
权重更新策略:
在这里插入图片描述
在这里插入图片描述是学习率

i是迭代次数,v是动量变量
在这里插入图片描述是第i批次Di,w的目标导数的平均值。

2.调整学习率
用当前学习速率训练,当验证错误率停止改善时,将学习速率除以10。

各层如下:
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值