深度学习CV八股文

最新推荐文章于 2024-08-14 12:02:58 发布

置顶

入坑&填坑

最新推荐文章于 2024-08-14 12:02:58 发布

阅读量2.6w

点赞数 104

文章标签：计算机视觉深度学习卷积神经网络

本文链接：https://blog.csdn.net/weixin_39994739/article/details/122864848

版权

深度学习CV八股文

一、深度学习中解决过拟合方法
- L1和L2正则化
- Dropout
- eargstopping ( 早停法 )
二、深度学习中解决欠拟合方法
三、梯度消失和梯度爆炸
- 解决梯度消失的方法
- 解决梯度爆炸的方法
四、神经网络权重初始化方法
- Xavier
- 指数加权移动平均数
五、梯度下降法
- 梯度下降
- SGD(随机梯度下降法)
- Momentum(动量梯度下降)
- Nesterov Momentum
- 自适应学习率算法
- - Adagrad
  - RMSprop
  - Adam
  - NAdam
六、学习率衰减
七、BatchNorm
- BN的作用
- BN的缺点
- 测试时的BN
八、内部协变量偏移
九、归一化方法
- LayerNormalization
- Instance Normalization
- Group Nomalization
- 对比
十、卷积
- 卷积的优点
- 1x1Conv(点卷积)
- Depthwise Separable Convolution
- Mlpconv
十一、池化
十二、激活函数
- Sigmoid
- tanh
- ReLU
- - ReLU的变体
- Swish
十三、预训练
- 预训练的好处
- 什么是预训练
十四、Transformer
- Attention
- self-attention
- Mutil_Head Attention
- - Mutil_Head Attention的作用
- MLP
- 残差连接的目的：
- Patch Embedding
- Learnable Embedding
- Position Embedding
十五、损失函数
- 交叉熵函数
- - 从KL散度到交叉熵
- MSE
十六、度量指标分析
- F1-score
- precision
- recall
- PR曲线
- ROC-AUC
十七、经典的模块组合方法
- Res和Dense
- - Res
- Dense
- 如何选择Res和Concat
- 多尺度卷积
- Inverted Residual 和Linear Bottleneck
- - Inverted Residual
  - Linear Bottleneck
- Group Average Pooling +1x1 Conv与FC
- Squeeze-and-Excitation(SE)

一、深度学习中解决过拟合方法

数据增强
L1和L2正则化
Dropout正则化
early stopping
BatchNorm

L1和L2正则化

L1正则化直接在原来的损失函数基础上加上权重参数的绝对值： $loss=J(w,b)+\frac{\lambda}{2m}\sum|w|$
L2正则化直接在原来的损失函数基础上加上权重参数的平方和： $loss=J(w,b)+\frac{\lambda}{2m}\sum\lVert w\lVert _F^2$
L1和L2正则化能够缓解过拟合的原因：
神经网络就是一个函数，对其进行傅里叶变换求得频谱，频谱中低频分量就是变化平滑的部分，高频分量就是变化敏感的部分。模型对于微小扰动的反馈差异大实际就是一个过拟合的表现，也就是高频分量不能多。根据雅各比矩阵(一阶导数矩阵)，神经网络这个函数的高频分量存在上界，上界和谱范数正相关。谱范数逆变换回时域，可求得和参数范数正相关。正则就是将参数的范数加入loss里求最优化，故而限制了神经网络学到高频分量，更倾向于一个低频的平滑的函数，从而缓解过拟合。
推导过程：https://blog.csdn.net/StreamRock/article/details/83539937

Dropout

Dropout正则化

步骤：

遍历神经网络每一层节点，设置节点保留概率keep_prob（每一层的keep_prob可以不同，参数多的层keep_prob可以小一些，少的可以多一些）。
删除神经网络节点和从该节点进出的连线。
输入样本使用简化后的神经网络进行训练。
每次输入样本都要重复以上三步

Inverted Dropout（反向随机失活）

步骤：

产生⼀个[0,1)的随机矩阵，维度与权重矩阵相同。
设置节点保留概率keep_prob 并与随机矩阵比较，小于为1，大于为0。
将权重矩阵与0-1矩阵对应相乘得到新权重矩阵。
对新权重矩阵除于keep_prob（保证输⼊均值和输出均值一致），保证权重矩阵均值不变，层输出不变。

测试阶段不需要使用dropout，因为如果在测试阶段使用dropout会导致预测值随机变化 , 而且在训练阶段已经将权重参数除以 keep_prob 保证输出均值不变所以在刚试阶段没必要使用dropout

Dropout起到正则化效果的原因：

Dropout可以使部分节点失活，起到简化神经网络结构的作用，从而起到正则化的作用。
Dropout使神经网络节点随机失活，所以神经网络节点不依赖于任何输⼊，每个输入的权重都不会很⼤。Dropout最终产⽣收缩权重的平方范数的效果，压缩权重效果类似L2正则化。

Dropout的缺点

没有明确的损失函数。

eargstopping ( 早停法 )

训练时间和泛化误差的权衡。提早停⽌训练神经网络得到⼀个中等大小的W的F范数，与L2正则化类似。
在这里插入图片描述
在训练中计算模型在验证集上的表现，当模型在验证集上的误差开始增大时，停止训练。这样就可以避免继续训练导致的过拟合问题。

二、深度学习中解决欠拟合方法

增加神经网络层数或神经元个数

三、梯度消失和梯度爆炸

梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）
梯度饱和：越来越趋近一条直线(平行X轴的直线)，梯度的变化很小
在这里插入图片描述
设激活函数是线性或函数，忽略b。 $g (z) = z$
$\hat{y} = W^{(l)} W^{(l-1)} \cdots W^{(2)} W^{(1)} x$
当 $W^{(l)}>1$ 时，如 $W^{(l)}=\begin{bmatrix} 1.5 & 0 \\ 0 & 1.5 \\ \end{bmatrix}$ ， $\hat{y}=W^{(l)}\begin{bmatrix} 1.5 & 0 \\ 0 & 1.5 \\ \end{bmatrix}^{(l-1)}x=1.5^{(l)}x$ 。此时，激活函数值/梯度函数值呈指数级增长=>梯度爆炸
当 $W^{(l)}>1$ 时，如 $W^{(l)}=\begin{bmatrix} 0.5 & 0 \\ 0 & 0.5 \\ \end{bmatrix}$ ， $\hat{y}=W^{(l)}\begin{bmatrix} 0.5 & 0 \\ 0 & 0.5 \\ \end{bmatrix}^{(l-1)}x=0.5^{(l)}x$ 。此时，激活函数值/梯度函数值呈指数级递减=>梯度消失
$\frac{\partial{J(\theta)}}{\partial{\theta_ij} }=\frac{\partial{J(\theta)}}{\partial{z^{l+1}_i} } \cdot \frac{\partial{z^{l+1}_i}}{\partial{\theta_ij} }$

解决梯度消失的方法

Relu及其变体
LSTM/GRU
残差结构
BatchNorm
Xavier初始化(修正w的方差，避免w过小)

解决梯度爆炸的方法

梯度裁剪
正则化(将w加入Loss里，如果Loss小则w也要小，而梯度爆炸是w过大[绝对值]造成的)
Xavier初始化(修正w的方差，避免w过大)
BatchNorm

四、神经网络权重初始化方法

Xavier

X和Z的方差在各层相等，激活值在网络供传递过程中就不会放大或缩小。
解决梯度消失和梯度爆炸问题
$\sum_{i=1}^n w_ix_i$
$var(w_ix_i)=E[w_i]^2var(x_i)+E[x_i]^2var(w_i)+var(w_i)var(x_i)$
若 $E[w_i]=E[x_i]=0$ ，则 $var(w_ix_i)=var(w_i)var(x_i)$ , $var(z)=\sum_{i=1}^n var(w_i)var(x_i)$
若 $x_i$ 和 $w_i$ 独立同分布， $v a r (z) = n v a r (w) v a r (x)$ 。
若 $v a r (z) = v a r (x)$ ，则 $=\frac{1}{n}\quad$
前向传播: $=\frac{1}{n_{in}}$
反向传播: $=\frac{1}{n_{out}}$
$=\frac{2}{n_{out}+n_{in}}$

指数加权移动平均数

计算局部的平均值，描述数值的变化趋势
$V_t= \beta{V_{t-1}}+(1-\beta)\theta{_t}$ ， $V_t$ 近似代表 $\frac{1}{1- \beta}$ 个 $\theta$ 的平均值
当 $V_0=0, V_1=(1-\beta)\theta{_1}$ ，当 $\beta=0.98$ 时， $v_1=0.02\theta{_1}$ ，导致偏差较大，因此需要偏差修正。
偏差修正的目的：提高前期指数加权平均值的精度
使用 $\frac{v_t}{1- \beta{^t}}=\frac{ \beta{V_{t-1}}+(1-\beta)\theta{_t}}{1- \beta{^t}}$ ，当 $t$ 很大时， $\beta{^t}\approx1$ ，偏差修正将失去作用。

五、梯度下降法

梯度下降

假设一个损失函数为 $J(\theta)=\frac{1}{2}\sum_{i=1}^n(h_{\theta}(x)-y)^2$ ，其中 $h_{\theta}(x)=\theta{_0}+\theta{_1}x_1+\theta{_2}x_2+\cdots+\theta{_n}x_n$ ，然后使它最小化
我们知道曲面上方向导数的最大值的方向就代表了梯度的方向，因此我们在做梯度下降的时候，应该是沿着梯度的反方向进行权重的更新，可以有效的找到全局的最优解。这个 $\theta_i$ 的更新过程可以描述为:
$\theta_j:=\theta_j-\alpha\frac{\partial}{\partial{\theta_j}}J(\theta)$
$\frac{\partial}{\partial{\theta_j}}J(\theta)=\frac{\partial}{\partial{\theta_j}}\frac{1}{2}(h_{\theta}(x)-y)^2=2\cdot\frac{1}{2}(h_{\theta}(x)-y)\cdot\frac{\partial}{\partial{\theta_j}}(h_{\theta}(x)-y)$