经典网络分析（上）

最新推荐文章于 2022-11-10 19:41:35 发布

Jackie～T

最新推荐文章于 2022-11-10 19:41:35 发布

阅读量226

点赞数

分类专栏：机器视觉文章标签：计算机视觉

本文链接：https://blog.csdn.net/JackieloveLily/article/details/117590154

版权

10 篇文章 2 订阅

订阅专栏

AlexNet

2021年ImageNet大规模视觉识别挑战赛冠军，精度提升超过10个百分点。
计算机视觉领域最具权威的学术竞赛之一
ImageNet数据集——有斯坦福大学李飞飞教授主导制作，其包含了超过1400万张全尺寸的有标记图片

验证了深度卷积神经网络的高效性

提出了一种卷积层加全连接层的卷积神经网络结构
首次使用ReLU函数作为神经网络的激活函数
首次提出Dropout正则化来控制过拟合
使用加入动量的小批量梯度下降算法加速了训练过程的收敛
使用数据增强策略极大地抑制了训练过程的过拟合
利用GPU的并行计算能力，加速了网络的网络的训练与推断
第一层（CONV1）: 96个1111 的卷积核，步长为4，没有零填充
问题：输入2272273大小的图像，输出特征图个数及尺寸为多少？（227-11）/4+1=55 问题：这层有多少参数？
（1111*3+1)*96=35K

第一个卷积层提取了96种结构的相应信息，得到了96个特征相应图。

特征图每个元素经过ReLU函数操作后输出。
MAX POOL1: 窗口大小3*3，步长为2 重叠有助于对抗过拟合。作用：降低特征图尺寸，对抗轻微的目标偏移。
输出尺寸：（55-3）/2+1=27 特征图个数：96 参数个数：0
局部响应归一化层（NORM1）作用：
- 对局部神经元的活动创建竞争机制
- 响应比较大的值变得相对更大
- 抑制其他反馈较小的神经元
- 增强模型的泛化能力

后来的研究证明：更深的网络中该层对分类性能的提升效果并不明显，且会增加计算量与存储空间。

第二层（CONV2）：256个5*5卷积核，步长为1，使用零填充p=2

问题：输入：272796大小的特征图组，输出特征图个数及尺寸为多少？尺寸：（27-5+2*2）/1+1=27 个数：256
第三、四层（CONV3、CONV4）：384个33卷积核，步长为1，使用零填充p=1
问题：CONV3输入：1313256大小的特征图组，输入特征图个数及尺寸为多少？尺寸：（13-3+21）/1+1=13
个数：384

没有进行最大池化与局部归一化
第五层（CONV5）：256个3*3卷积核，步长为1，使用零填充p=1 最大池化层缩小特征值尺寸。
第六——八层（FC6、FC7、FC8）：全连接神经网络分类器 MAX POOL3的输出：特征响应图组 FC6输入：9216维向量
输出：图像类别概率

重要说明：

重要技巧：

问题：AlexNet卷积层在做什么？

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

VGG16

在这里插入图片描述

在这里插入图片描述

串联结构（例如VGG）存在的问题：后面的卷积层只能处理前层输出的特征图；千层因某些原因（比如感受野限制）丢失重要信息，厚层无法找回。

解决方案：每一层尽量多的保留输入信号中的信息。
在这里插入图片描述
层数更深，参数更少，计算效率更高，非线性表达能力越强

关注