学习笔记1-学习笔记VGG

李卓璐

已于 2024-04-08 09:05:57 修改

阅读量258

点赞数 2

分类专栏：学习笔记文章标签：深度学习神经网络

于 2021-09-29 14:51:28 首次发布

本文链接：https://blog.csdn.net/LZL2020LZL/article/details/120541198

版权

学习笔记专栏收录该内容

36 篇文章 12 订阅

订阅专栏

一、多分支结构（多路分支）

原理:加上不同分支应用不同卷积核，能获得不同感受野。其允许原始输入信息直接传到后面的层中，这样的话这一层的神经网络可以不用学习整个的输出，而是学习上一个网络输出的残差。且网络的层数越多，意味着能够提取到不同level的特征越丰富。而越深的网络提取的特征越抽象，越具有语义信息。但如果简单地增加深度，会导致梯度弥散或梯度爆炸（退化），因此提出深度残差网络 ResNet。
请添加图片描述
优点:更容易优化，并且能够通过增加相当的深度来提高准确率。
缺点:因为需要保存中间结果，所以显存占有量会明显增高，只有到多路融合时，显存会会降低。

二、感受野

定义:卷积神经网络每一层输出的特征图（feature map）上的像素点在输入图片上映射的区域大小。也就是特征图上的一个点对应输入图上的区域。
- 为什么两层3x3的卷积核感受野为5x5，三层3x3的卷积核感受野为7x7呢？
答：感受野计算公式：F(i)=(F(i+1)-1)xStride+Ksize
设：Stride=1，Feature map:F=1。
conv3x3(3):F=(1-1)x1+3=3
conv3x3(2):F=(3-1)x1+3=5
conv3x3(1):F=(5-1)x1+3=7
- 为什么使用3x3的卷积核？
1.3x3是最小的能够捕获像素八邻域信息的尺寸。
2.可以通过小尺寸卷积层的堆叠替代大尺寸卷积层，并且感受野大小不变。
3.减少卷积核参数，运算的复杂度，比一个大尺寸filter卷基层有更多的非线性。
举例：设输入输出通道为C，则使用7x7卷积所需参数：7x7xCxC=49C²
使用3个3x3卷积所需参数：3x3xCxC+3x3xCxC+3x3xCxC=27C²

- 为什么使用1x1的卷积核？
1.降维（缩放通道数）
2.增加网络的非线性，使得网络可以表达更加复杂的特征。
3.减少卷积核参数和运算的复杂度，减少计算量。
同理举例：请添加图片描述

三、VGG(Visual Geometry Group)

亮点:基本上都用的是3 * 3的卷积核以及 2 * 2的max pooling。完美的利用了conv 3x3的优点。

网络结构：

以VGG16为例解释网络结构：请添加图片描述
结论：卷积层仅改变深度即通道数channel，池化层pooling仅改变高度和宽度。
这边推荐一位b站博主：霹雳吧啦Wz

四、术语

FLOPS：FLOPS（Floating-point Operations Per Second），即每秒所能够进行的浮点运算数目。常常用来形容GPU的运算性能。
FLOPs ：FLOPs （floating point of operations），是浮点运算次数，可以用来衡量算法/模型复杂度。

如有错误欢迎各位同学批评指正

李卓璐

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
学习笔记1-学习笔记VGG

多分支结构（多路分支）原理：加上不同分支应用不同卷积核，能获得不同感受野。其允许原始输入信息直接传到后面的层中，这样的话这一层的神经网络可以不用学习整个的输出，而是学习上一个网络输出的残差。且网络的层数越多，意味着能够提取到不同level的特征越丰富。而越深的网络提取的特征越抽象，越具有语义信息。但如果简单地增加深度，会导致梯度弥散或梯度爆炸（退化），因此提出深度残差网络 ResNet。优点（目的）：更容易优化，并且能够通过增加相当的深度来提高准确率。缺点：因为需要保存中间结果，所以显存占有量会明
复制链接

扫一扫