CS231n:(9) CNN Architecture

最新推荐文章于 2022-10-02 17:12:34 发布

无聊的人生事无聊

最新推荐文章于 2022-10-02 17:12:34 发布

阅读量168

点赞数

分类专栏：信息科学文章标签： cs231n

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Wangpeiyi9979/article/details/98451773

版权

信息科学专栏收录该内容

159 篇文章 1 订阅

订阅专栏

问答总结

AlexNet网络中的LRN机制是怎样的？
VGGNet网络的特点是什么，他为什么使用多层 $\times 3$ 卷积核的卷积层串联而不直接使用更大的卷积核。
GoogleNet中的Inception和辅助分支是怎样的，如何理解它们的作用?
残差网络问答总结

文章目录

一、LeNet-5
- 1、模型结构
- 2、一些说明
二、AlexNet
- 1、模型结构
- 2、一些说明
三、VGGNet
- 1、模型结构
- 2、一些说明
四、GoogleNet
- 1、模型结构
- 2、一些说明
五、ResNet(重点)
六、模型复杂度
参考资料

一、LeNet-5

1、模型结构

在这里插入图片描述
LeNet-5在1998年提出，是第一个较为成功应用的卷积神经网络。其结构如下:

输入层: $32 \times 32$
卷积层1: $6$ 个 $\times 5$ 的卷积核，卷积核步长 $s t r i d e = 1$ . 因此输出为 $28 \times 28 \times 6$ + 激活函数
池化层1: $2\times 2$ ，池化步长 $s t r i d e = 2$ . 因此输出为 $14 \times 14 \times 6$ .
卷积层2: $6$ 个 $\times 5$ 的卷积核，卷积核步长 $s t r i d e = 1$ . 因此输出为 $10 \times 10 \times 16$ + 激活函数
池化层2: $\times 2$ , 池化步长 $s t r i d e = 2$ .因此输出为 $\times 5 \times 16$ .
全连接层1: $\in R^{400 \times 120}$ + 激活函数
全连接层2: $\in R^{120 \times 84}$ + 激活函数
全连接层3: $\in R^{84 \times 10}$
softMax层

2、一些说明

LeNet-5参数数量大约6W个
最开始提出LeNet-5最后不使用softMax，但是现在softMax成为了分类任务的标准配置。
刚开始激活函数使用sigmoid,但是现在使用relu.

二、AlexNet

1、模型结构

在这里插入图片描述

输入层: $227 \times 227 \times 3$
卷积层1: $96$ 个 $11 \times 11$ 的卷积核，步长 $s t r i d e = 4$ . 因此输出 $55 \times 55 \times 96$ + relu + 局部响应归一化(local size=5)
池化层1: $\times 3$ , 步长 $s t r i d e = 2$ , 因此输出为 $27 \times 27 \times 96$ .
卷积层2: 256个 $\times 5$ 的卷积核，步长 $s t r i d e = 1$ , 填充Same Padding, 使得前后大小不变. 因此输出为 $27 \times 27 \times 256$ . + relu + 局部响应归一化(local size = 5)
池化层2: $\times 3$ , 步长 $s t r i d e = 2$ , 因此输出为 $13 \times 13 \times 256$
卷积层3: 384个 $\times 3$ 的卷积核，步长 $s t r i d e = 1$ , 填充Same Padding. 因此输出为 $13 \times 13 \times 384$ .+ relu
卷积层4: 384个 $\times 3$ 的卷积核，步长 $s t r i d e = 1$ , 填充Same Padding. 因此输出为 $13 \times 13 \times 384$ . + relu
卷积层5: $256$ 个 $\times 3$ 的卷积核，步长 $s t r i d e = 1$ , 填充Same Padding. 因此输出为 $13 \times 13 \times 256$ + relu
池化层3: $3\times3$ , 步长 $s t r i d e = 2$ , 因此输出为 $\times 6 \times 256$ .
全连接层1: $\in R^{9216 \times 4096}$ + relu + dropout
全连接层2: $\in R^{4096 \times 4096}$ + relu + dropout
全连接层3: $\in R^{4096 \times 1000}$
softMax层

2、一些说明

局部响应归一化机制(实践中发现，作用很小):
AlexNet网络引入了局部响应归一化机制，模拟神经生物学上一个叫做侧抑制的功能:即被激活的神经元会抑制相邻神经元。其计算方法如下:

其中 $a^i(x,y)$ 表示第 $a$ 张图片，第 $i$ 个通道, 位置为 $(x, y)$ 。一般 $\alpha=1e-4, beta=0.75$ .

归一化过程如上图所示，红色点可表示为 $a^i(x,y)$ , 其使用虚线上的所有点进行归一化。top5和top-1错误率分别降低了1.4%和1.2%。
重叠池化机制:
令池化过程中卷积核移动步长为 $s$ ，卷积核大小为 $k$ , 重叠池化操作即 $\le k$ , 在AleNet中， $s = 2, z = 3$ .

关于为什么使用重叠池化机制，可能是AlexNet模型采用Max Pooling, 即一个区域只保留了一个位置的结果，普通最大池化或许会丢掉很多信息，重叠池化一定程度上可以保留一些信息。这个方案分别减少了top-5和top-1错误率的0.4%和0.3%
现在流行的Dropout、relu激活函数都是该模型首发的。
模型总体的参数大概为240M。

三、VGGNet

1、模型结构

在这里插入图片描述

2、一些说明

VGG模型有两个比较明显的特点: (1) 网络深度加深。(2) 只使用 $\times 3$ 的卷积核，且步长 $s t r i d e = 1$ , $p a d = 1$ (保持形状), $\ Pool \ stride=2$ .
使用 $\times 3$ 的卷积核，两层串联相当于感知野为 $\times 5$ , 三层串联相当于感知野为 $\times 7$
为什么要用三层 $\times 3$ 的卷积层串联不使用一层 $\times 7$ 的卷积层呢? 是因为前者参数较少， $3(3^2C) < 7^2C$ , 其中 $C$ 为通道数。
VGG中不再采用LRN机制
共包含参数约为550M。

四、GoogleNet

1、模型结构

在这里插入图片描述

GoogleNet有22层深，且有两个辅助分支。

2、一些说明

GoogleNet也被称作Inception V1. 参数为5M.
Inception Module：
- 核心思想: 采用多种尺寸卷积核提取图像不同尺度信息最后进行融合，以得到图像更好的表示
  
  直观上理解，比如上方两只猫，我们提取猫脸的信息，但是两个猫脸大小不一样，就需要不同尺寸卷积核。
- 改进版理解：加入了 $\times 1$ 的卷积核的卷积层，是为了进行降维，减少Inception模块输出通道数量.
辅助SoftMax分支:
- 训练时: $loss = loss_2+0.3loss_1 + 0.3loss_0$ , 这样可以一定程度上避免梯度消失。
- 将辅助输出作为分类，起到模型融合作用。
- 测试时: 辅助分支会被去掉
- 辅助分支对模型的提升主要体现在训练后期

五、ResNet(重点)

在这里插入图片描述
残差网络可以说是引起了深度学习的革命，笔者在以前读NLP相关论文时，便有很多模型借用了残差机制，因此特地写一篇博客了解残差网络。

六、模型复杂度

在这里插入图片描述

横轴代表时间复杂度
纵轴代表准确率
圆大小代表模型大小

参考资料

[1] 经典卷积神经网络结构——LeNet-5、AlexNet、VGG-16
[2] 常见的视觉现象
 [3] GoogLeNet中的inception结构，你看懂了吗
 [4] 你必须要知道CNN模型：ResNet
[5] cs231n课程pdf

无聊的人生事无聊

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CS231n:(9) CNN Architecture

问答总结AlexNet网络中的LRN机制是怎样的？VGGNet网络的特点是什么，他为什么使用多层3×33 \times 33×3卷积核的卷积层串联而不直接使用更大的卷积核。GoogleNet中的Inception和辅助分支是怎样的，如何理解它们的作用?文章目录一、LeNet-51、模型结构2、一些说明二、AlexNet1、模型结构2、一些说明三、VGGNet1、模型结构2、一些说明四...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。