经典深度神经网络AlexNet、VGGNet

⒈顆糖果!

已于 2022-06-16 21:28:15 修改

阅读量1.3k

点赞数 2

文章标签： dnn 深度学习计算机视觉

于 2022-06-15 20:37:26 首次发布

本文链接：https://blog.csdn.net/Tangguoseo/article/details/125290410

版权

一、AlexNet(2012)

包含8个网络层，5个卷积层，3个全连接层

AlexNet的特点：

更深的网络结构；
使用层叠的卷积层，即卷积层+卷积层+池化层来提取图像的特征；
使用Dropout抑制过拟合；
使用数据增强抑制过拟合；
使用Relu替换sigmoid作为激活函数，解决了sigmoid在网络较深时出现的梯度弥散问题；
使用归一化层对局部神经元的活动创建竞争机制，抑制反馈较小的神经元，放大反馈较大的神经元，增强模型泛化能力；
使用重叠池化，有利于减轻过拟合；
使用多GPU进行训练。

输入图像大小：227*227*3

AlexNet分层信息介绍：

卷积层1：conv1

输入图像大小：227*227*3
卷积核：大小11*11，数量96个，步长4
输出特征图大小：55*55*96 （因为有上下两个通道）

激活函数Relu

第一个池化层：pool1

卷积核大小3*3，步长2
输出特征图大小：27*27*96

标准化（归一化层1）norm1：

local_size=5
生成特征图大小为：27*27*96

卷积层2：conv2

输入特征图大小：27*27*96
卷积核大小5*5，数量256个，步长1，填充2
输出特征图大小：27*27*256

激活函数Relu

第二个池化层：pool2

输入特征图大小：27*27*256
卷积核大小3*3，步长2
输出特征图大小：13*13*256

标准化：norm2

local_size=5
生成特征图大小为：13*13*256

卷积层3：conv3

输入特征图大小：13*13*256
卷积核大小3*3，数量384个，步长1，填充1
输出特征图大小：13*13*384

激活函数Relu

卷积层4：conv4

输入特征图大小：13*13*384
卷积核大小3*3，数量384个，步长1，填充1
输出特征图大小：13*13*384

激活函数Relu

卷积层5：conv5

输入特征图大小：13*13*384
卷积核大小3*3，数量256个，步长1，填充1
输出特征图大小：13*13*256

激活函数Relu

第三个池化层：pool5

输入特征图大小：13*13*256
卷积核大小3*3，步长2
输出特征图大小：6*6*256

全连接层6：fc6

输入特征图大小：6*6*256
输出向量：4096维向量

第一个dropout层：dropout6

训练时以1/2的概率使隐藏层的某些神经元的输出为0，丢掉一般节点的输出，这些节点在BP时也不更新，生成4096维向量。

全连接层7：fc7

输入和输出都是4096维向量。

第二个dropout层：dropout7

生成4096维特征向量

全连接层8：fc8

输入：4096维特征向量；
输出：1000维特征向量。

AlexNet创新点：

1.Relu激活函数
2.数据增强
3.重叠池化：一般的池化是不重叠的，池化区域的窗口大小与步长相同。
4.使用局部归一化的方案有助于增加泛化能力：核心思想就是利用临近的数据做归一化，这个策略贡献了1.2%的Top-5错误率。

$b_{x,y}^{i}=\frac{a_{x,y}^{i}}{(k+\alpha \sum_{j=max(0,i-\frac{n}{2})}^{min(N-1,i+\frac{n}{2})}(a_{x,y}^{j})^{2})^{\beta }}$

$a_{x,y}^{i}$ 表示使用核i作用于 $(x,y)$ 然后再采用ReLU非线性函数计算得到的活跃度。N是该层核的总数目，常数 $k,n,\alpha ,\beta$ 是超参数，它们的值使用一个验证集来确定，文中使用 $k=2,n=5,\alpha =10^{-4},\beta =0.75$ 。