Resnet

最新推荐文章于 2024-06-26 09:32:01 发布

QT-Smile

最新推荐文章于 2024-06-26 09:32:01 发布

阅读量524

点赞数

分类专栏：深度学习之美 Code Python 文章标签：神经网络深度学习人工智能

本文链接：https://blog.csdn.net/qq_34848334/article/details/120993245

版权

深度学习之美同时被 3 个专栏收录

209 篇文章 25 订阅

订阅专栏

Python

131 篇文章 1 订阅

订阅专栏

Code

110 篇文章 12 订阅

订阅专栏

Resnet

1.Resnet起源
在这里插入图片描述
2.网络中的亮点：

那我也可以啊，直接堆叠卷积层和池化层，也能堆叠到1000层，下面实验证明。当单纯的使用卷积核池化层进行堆叠时发现，56层的还没有20层的好。
还有一个问题？难道越深的网络，就越好吗？
. 在这里插入图片描述

3.它也是趋向于图片处理，基于卷积的。
在这里插入图片描述
4.深度学习是不是越深越好，神经网络层数越多越好？

5.
之前使用的那些方法去避免梯度消失和梯度爆炸？
数据标准化处理、权重初始化，bn
这篇文章又是通过什么方法去避免梯度消失和梯度爆炸？
在解决梯度消失和梯度爆炸之后，还会存在随着深度的增加，会出现退化问题（退化问题：层数深的网路比层数少的网络效果差）
之前的网络存在退化问题？怎样解决的？
resnet网络是怎样解决退化问题的？
resnet通过的是残差问题来解决退化问题的

这个就是resnet网路跑出来的误差图，那形成这样的结构图是由于加入了残差解决了退化问题所带来的好处还是使用方法解决了梯度消失和梯度爆炸带来的好处呢？（resnet解决梯度消失进而梯度爆炸的方法暂时我还不知道）
在这里插入图片描述
7.
residual模块：残差模块-------这就是resnet网络解决退化问题的方法

8.
Batch Normalization是做什么用的？dropout是做什么用的？

9.
1*1的卷积核怎样用来降维和升维？

在这里插入图片描述
（1）主流程中，特征矩阵通过卷积，激活得到的特征矩阵和输入特征矩阵进行相加操作。（提问：这个相加操作就是对应位的数据直接进行加法计算吗？这两个特征矩阵的维度是一样大的嘛？答：使得必须保证他们的维度一样大-----这儿的维度包括三个方面高、宽、通道数）
在这里插入图片描述
（2）
这些叫做11的卷积层，33的卷积层，1*1的卷积层。提问：这个到底是啥？我以为是卷积核呢？

在这里插入图片描述
（3）右边的图与左边的图相比，它在输入和输出出都增加了11的卷积层。提问:为啥少了33的卷积层呢？

（4）
右边增加的11的卷积层是用来做什么的呢?

(5)
输入特征矩阵的深度是256的？一个矩阵怎么会有深度？不就是只有一个矩阵吗？难道它有256个矩阵

（6）
这儿的64是指卷积核的个数为64

（7）一个地方说的是11卷积层，ppt上面却写的是11卷积核

（8）
为什么视频里面把通道又叫做深度啊？而且经过第一个卷积层，高和宽是不变的，但是由于64个卷积核，深度由256变成了64，而且视频里面说卷积层1这样到达了降维的作用。

按照上面的意思，第三个卷积层就是升维的作用，升维成深度是256的，这样就和输入特征矩阵的维度是一模一样的了，这儿的11卷积核是怎样达到升维的作用的？
在这里插入图片描述
（9）
右边的图和左边的图相比，它到底节省了多少参数呢？

（10）

10.

11.

在这里插入图片描述

12.

实线主流程的特征矩阵的大小和输入矩阵的大小是一样的。虚线的主流程特征矩阵大小和输入特征矩阵大小是一样的。

特征矩阵的深度是啥意思？
这个是怎样输出为28，28,128的？

在这里插入图片描述

这儿的输出是怎样做到的？
在这里插入图片描述

实线的输入特征矩阵和输出特征矩阵的长宽深度没有发生变化，而虚线的输入特征矩阵和输出特征矩阵的长宽深度都是发生变化的。
在这里插入图片描述

这三个卷积层的第一层的残差结构都是虚线残差结构，因为它们的上一层的特征矩阵的大小和自己所在层的特征矩阵的大小不一样。
提问：什么是下采样？
在这里插入图片描述

这个图和论文上面讲的一样，只有conv3、conv4、conv5这三层有残差结构，而conv2没有残差结构。并且conv3、conv4、conv5这三层只有第一层有残差结构，并且是虚线残差结构

![在这里插入图片描述](https://img-blog.csdnimg.cn/90a8c7ae1eba4bc38db745e4a906ad73.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBAUVQtU21pbGU=,size_20,color_FFFFFF,t_70,g_se,x_16

这儿没有看懂
在这里插入图片描述

在这里插入图片描述

Batch Normalization详解

1、 Batch Normalization是个啥？
在这里插入图片描述
Batch Normalization能够加快网络的收敛并提高准确率。

2、之前网络中，我们会把图像数据经过预处理，使它满足一定的分布规律。就能够加速网路的训练。
在这里插入图片描述
也就是数据在这个传输过程中，图片的数据是满足一定的分布规律的，就能够加速网路的训练。

在经过conv1之后得到的feature map就不一定满足某种分布规律了。
提问：为什么图像数据满足了一定的分布规律就会加速网络的训练呢？
在这里插入图片描述

而Batch Normalization就只专门来调整feature map的。让每一层的feature map数据都满足均值为0，方差为1的分布规律。
提问：为什么要把它设置成均值为0，方差为1的分布规律呢，其他分布规律行嘛？并且其他网络对图片数据进行预处理时，它们一般把图片数据处理成怎样的分布规律。

Batch Normalization是去调整一批输入数据的每一层的feature map分布，而不是去调整某一个图像对应的feature map的每一层的分布
在这里插入图片描述
图像的通道也称为图像的深度。

在这里插入图片描述
4.
这里的通道是指：一批数据同一个通道所有数据的均值

这里的通道是指：一批数据同一个通道所有数据的均值

5.

这里的分母部分有一个很小的数，它是为了防止分母等于0。
在这里插入图片描述
这里的γ是为了调节方差的大小

β是为了调节均值。
在这里插入图片描述
这里如果不进行γ和β的调整，这里的方差将会是1，均值将会是0

有点人认为这里的方差为1，均值为0效果不是最好，所以才会添加γ和β这两个学习参数。γ和β主要通过反向传播去学习得到的。而这里的均值和方差是通过一批一批的数据计算统计得到的
在这里插入图片描述

实例

在这里插入图片描述
此时我们需要计算整个batch呢channel为1的数据的均值和方差。

此时的均值和方差是向量，向量的维度是和我们的深度（channel）相对应的。这里均值的1，对应的是channel1所对应的均值。0.5对应的是channel2对应的均值。方差同样的
在这里插入图片描述

通过公式在这里插入图片描述就可以计算出，通过batch normalization得到的特征矩阵的值。

在这里插入图片描述
上面的图并没有进行下面这个计算
，是因为γ刚开始是被置位1的β被置位0的，所以进不进行这一步都不会有的影响

2.
使用BN时需要注意的问题
由于在训练过程中需要不断的去统计均值和方差，所以training设置为true 在这里插入图片描述
而在验证或者测试过程中呢，使用的历史统计的均值和方差，而不是当前数据的均值和方差。所以这里training设置为false

在这里插入图片描述

精度AI论文—resnet

1、在这里插入图片描述
resnet超过了人眼的水平

2.

在这里插入图片描述
3.
神经网络越深，从图像中提取到的特征层次也就越丰富。
既然深度这么重要，为什么之前的人，没有把网络堆的很深，这样不就实现了很好的性能了吗？这就要说renet解决的核心问题网络退化问题。对于一般的神经网络并不是网络堆的越深，网络的性能越好。56层的训练集上的误差和测试集的误差都要大于20层的误差。而造成这样的原因并不是梯度爆炸，梯度消失，和过拟合造成的。因为下面的图像表明，两个图像的误差在最后都是收敛的，表明不是梯度爆炸和梯度消失的原因。而对于过拟合，是神经网络模型在训练集上面的误差很小，但是在测试集上面的误差很大，但是下面这两张图的误差都大，所以造成随着网络层数的加深，误差反而变大的这个现象并不是梯度爆炸、梯度消失、过拟合造成的，而是由其他原因造成的，而这个原因被研究人员叫做网络退化问题。而resnet之所以能够做的那么深，就是解决了网络退化问题。
在这里插入图片描述

4、
resnet解决退化问题是引入了残差模块。就是下图这个结构。

在这里插入图片描述

残差模块的意思就是说，它不需要去拟合真正的底层的分布了。
6.
写一个残差模块的案例过程
在这里插入图片描述
7.

8.
残差是指预测值和真实值之间的偏差。
9.
残差是指预测值和真实值之间的偏差。
直线就是预测的数，而散点就是真实数据的点。
在残差网络里面，其实就是要拟合这个偏差。
提问：在下面两张图中，红线是恒等映射吗
在这里插入图片描述

resnet为什么能解决网络退化问题的机理（up主的理解）

在这里插入图片描述
2.这个恒等映射，到底是在求和后进行的还是求和前进行的？

3.

在这里插入图片描述

在这里插入图片描述
6.

7.

8.

9.

10.
rsnet只是用于提取图片的特征的，不进行，图片的后续处理工作
11.

适当的权重初始哈和Batch Normalization可以防止梯度消失和梯度爆炸
12.
resnet网络是更好的解决了梯度消失和梯度爆炸，还是解决了网络退化问题，我觉得解决了网络退化问题。
13

QT-Smile

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Resnet

Resnet1.Resnet起源2.网络中的亮点：那我也可以啊，直接堆叠卷积层和池化层，也能堆叠到1000层，下面实验证明。当单纯的使用卷积核池化层进行堆叠时发现，56层的还没有20层的好。还有一个问题？难道越深的网络，就越好吗？.3.它也是趋向于图片处理，基于卷积的。4.深度学习是不是越深越好，神经网络层数越多越好？5.之前使用的那些方法去避免梯度消失和梯度爆炸？数据标准化处理、权重初始化，bn这篇文章又是通过什么方法去避免梯度消失和梯度爆炸？在解决梯度消失和梯度爆炸之后，
复制链接

扫一扫

专栏目录