深度学习基础

最新推荐文章于 2023-12-03 17:10:53 发布

qq_40484000

最新推荐文章于 2023-12-03 17:10:53 发布

阅读量970

点赞数 1

文章标签：深度学习 pytorch 神经网络

本文链接：https://blog.csdn.net/qq_40484000/article/details/118488297

版权

为什么白化训练数据能够加速训练进程？
在这里插入图片描述

什么是梯度消失和梯度爆炸？
在这里插入图片描述

为什么BN能够缓解梯度消失？
在这里插入图片描述

为什么BN层可以加速网络收敛速度？
1.如果没有BN层，训练过程中前一层输出分布的变化必然导致后面的网络去调整学习来适应前一层输出分布的均值和方差
2.使得激活输入值落在非线性函数对输入比较敏感的区域，这样输入的小变化就会导致损失函数较大的变化，避免梯度消失问题产生

为什么BN层一般用在线性层和卷积层后面，而不是放在非线性单元后？
1.因为非线性单元的输出分布形状会在训练过程中变化，归一化无法消除他的方差偏移。
2.相反的，全连接和卷积层的输出更加类似高斯分布，对他们进行归一化会产生更加稳定的分布。

BN-ReLU 和 ReLU-BN
1.BN-ReLu可以让relu更好地产生特征选择作用。因为输入值分布更接近0均值（有重构，所以不是等于0均值），于是relu的单侧抑制作用得以展现
2.ReLu-BN的好处在于，激活后再norm，保证了下一层的输入是零均值的。零均值的输入，可以使得训练效率更高，收敛更快。

BN的作用
1.加快网络的训练和收敛的速度
2.缓解梯度爆炸、梯度消失
因为梯度公式里面有一项就是上一层输入，将输入控制在一个合理的区间可以防止梯度爆炸或消失。
3.防止过拟合
在网络的训练中，BN的使用使得同样一个样本的输出不再仅仅取决于样本的本身，也取决于跟这个样本同属一个batch的其他样本，而每次训练都是随机取batch，这样就会使得整个网络不会朝某一个方向使劲学习。一定程度上避免了过拟合。
4.减少了对学习率的要求。现在我们可以使用初始很大的学习率或者选择了较小的学习率，算法也能够快速训练收敛；
5.减少了对参数初始化的依赖

BN的参数
假设输入是B✖️C✖️W✖️H，BN一共可训练的参数个数为2C

为什么要重构？
1.归一化的输入数据，损失了数据的表达能力，使得底层网络学到的参数信息丢失，重构是为了恢复网络的表示能力。
2.什么是网络的表示能力？想一下relu是怎么实现非线性的，relu实现非线性的本质就是单侧抑制。通过抑制一半的输入区间，relu实现了特征的选择，即不同的输入数据流入网络，我们每一层得到的输出特征也是不同的，这就是网络的表示能力。norm之后如果不重构，那无论输入数据是什么，每一层的输入都满足正态分布，relu都会进行同样的特征选择。重构通过打乱每层输入的分布，使得特征具有区分性。

ReLU和Sigmoid的区别：
1.避免梯度消失
sigmoid函数在输入取绝对值非常大的正值或负值时会出现饱和现象——在图像上表现为变得很平，此时函数会对输入的微小变化不敏感——从而造成梯度消失；
ReLU 的导数始终是一个常数——负半区为 0，正半区为 1——所以不会发生梯度消失现象
2.减缓过拟合
ReLU 在负半区的输出为 0。一旦神经元的激活值进入负半区，那么该激活值就不会产生梯度/不会被训练，造成了网络的稀疏性——稀疏激活
这有助于减少参数的相互依赖，缓解过拟合问题的发生

为什么 ReLU 不是全程可微/可导也能用于基于梯度的学习？
虽然从数学的角度看 ReLU 在 0 点不可导，因为它的左导数和右导数不相等；
但是在实现时通常会返回左导数或右导数的其中一个，而不是报告一个导数不存在的错误。从而避免了这个问题

Dropout能够避免过拟合的原因：
1）减少神经元之间复杂的共适应关系，权值的更新不再依赖于有固定关系的隐含节点的共同作用。
2）取平均，也可以认为是一种集成学习的思想。

Dropout在预测时需要按照概率p进行尺度归一化

NMS原理及实现的流程
1.原理：
Non-Maximum-Suppression（非极大值抑制）：
当两个box空间位置非常接近，就以score更高的那个作为基准，看IOU即重合度如何，如果与其重合度超过阈值，
就抑制score更小的box，因为没有必要输出两个接近的box，只保留score大的就可以了
2.过程：
1.将各组box(按类别)按照score降序排列
2.从score最大值开始，置为当前box，保存idex，然后依次遍历后面的box，计算与当前box的IOU值，若大于
阈值，则抑制，不会输出
3.完成一轮遍历后，继续选择下一个非抑制的box作为当前box，重复步骤2
4.返回没有被抑制的index即符合条件的box

1*1卷积核的作用
1.实现跨通道的交互和信息整合
2.进行卷积核通道数的降维和升维
3.可以实现与全连接层等价的效果

普通卷积和深度可分离卷积的区别
正常卷积核是对3个通道同时做卷积。也就是说，3个通道，在一次卷积后，输出一个数。
深度可分离卷积分为两步：
第一步：用三个卷积对三个通道分别做卷积，这样在一次卷积后，输出3个数。
第二步：这输出的三个数，再通过一个1x1x3的卷积核（pointwise核），得到一个数。
所以深度可分离卷积其实是通过两次卷积实现的

ROC曲线怎么得到的？（对比ROC曲线和P-R曲线）
1.假设已经得出一系列样本被划分为正类的概率Score值，按照大小排序。
2.从高到低，依次将“Score”值作为阈值threshold，当测试样本属于正样本的概率大于或等于这个threshold时，我们认为它为正样本，否则为负样本。举例来说，对于某个样本，其“Score”值为0.6，那么“Score”值大于等于0.6的样本都被认为是正样本，而其他样本则都认为是负样本。
3.每次选取一个不同的threshold，得到一组FPR和TPR，以FPR值为横坐标和TPR值为纵坐标，即ROC曲线上的一点。
4.根据3中的每个坐标点，画图

mAP的两种计算方式
1.
11-point interpolation通过平均一组11个等间距的Recall值[0,0.1,0.2，…，1]对应的Precision来绘制P-R曲线.

计算precision时采用一种插值方法（interpolate），即对于某个recall值r，precision值取所有recall>=r中的最大值（这样保证了p-r曲线是单调递减的，避免曲线出现抖动）
在这里插入图片描述