深度学习（一）--反向传播算法

最新推荐文章于 2024-07-12 00:46:55 发布

Zfq740695564

最新推荐文章于 2024-07-12 00:46:55 发布

阅读量4k

点赞数

分类专栏： DL

本文链接：https://blog.csdn.net/Zfq740695564/article/details/79598592

版权

本文介绍了深度学习中的反向传播算法，从损失函数的选择出发，详细讲解了Multiclass SVM loss的理论推导、实例和程序实现，并探讨了正则化项的引入以防止过拟合。接着，文章详细阐述了反向传播的四个基本方程及其意义，帮助理解神经网络中误差的反向传播过程。最后，总结了反向传播算法的重要性和应用。

摘要由CSDN通过智能技术生成

本文从李飞飞的课件cs231n的得到启发，将关于反向传播算法的内容做下总结。

下图是对深度学习的直观解释：

该图右侧表示图像空间，通过几个分界面将图像空间分成几个不同的区域，每个区域的图像具有相似的特征。
左侧为卷积神经网络的简单版，将输入图像与权重矩阵W想乘，加上偏置项即可得到属于各个类别的scores，score越大，属于该类的概率越大。
但是，基本思路是这样，具体实施的话，需要考虑很多问题：
1. 上述方法虽然能计算出scores，但当scores不满足我们的期望时（也就是说当前分类器并不是最优），如何去处理？ $\rightarrow$ 通过最小化损失函数的方法来找到最优的分类器。
2. 如何去量化损失？
3. 量化损失后，如何将损失最小化？

损失函数的选择

Multiclass SVM loss

理论推导

{x i y i} N i = 1

$\left \{ x_{i} y_{i}\right \}_{i=1}^{N}$
其中

xi x i $x_i$ is image and

yi y i $y_i$ is integer label
整个数据集上的损失函数如下所示：

L = 1 N \sum i L i (f (x i, W), y i)

$L=\frac{1}{N}\sum_{i}L_i(f(x_i,W),y_i)$

Li L i $L_i$ 又如何定义呢？

L i = \sum j \neq y i {0 s j - s y i + 1 s y i \geq s j + 1 otherwise = \sum j \neq y i m a x (0, s j - s y i + 1) (1) (2)

$\begin{align} L_i &=\sum_{j\neq y_i} \begin{cases} 0 & s_{y_i} \ge s_j + 1 \\ s_j-s_{y_i}+1 & \text{otherwise} \end{cases}\\ & =\sum_{j \neq y_i}max(0,s_j-s_{y_i}+1) \end{align}$
该是的直观理解：当非目标的score比目标的score大1以上时，认为损失为零，否则，认为损失为

sj−syi+1 s j − s y i + 1 $s_j - s_{y_i} +1$

Example

假设有一个分类任务：设计一个分类器将三幅图像分类。

给定三幅图像，通过下图的方法计算出每幅图对应的scores向量：

每幅图对应一个scores向量，如下图所示：

但是据我们观察，每幅图对应的scores向量中最大值并非对图像的正确分类，因此，说明目前的分类器(也就是 $W,b$ )并不是最优，需要进行优化。
根据上述loss计算公式进行如下计算：
我们计算第三幅图像的scores，因此， $i=3$ , $y_3=3$ , $j=1,2$

L i = \sum j \neq y i m a x (0, s j - s y i + 1) = m a x (0, 2.2 - (- 3.1) + 1) + m a x (0, 2.5 - (- 3.1) + 1) = m a x (0, 6.3) + m a x (0, 6.6) = 6.3 + 6.6 = 12.09 (3) (4) (5) (6) (7)

$\begin{align} L_i & =\sum_{j \neq y_i}max(0,s_j-s_{y_i}+1)\\ & =max(0,{\color{Blue}{2.2}}-({\color{Red}{-3.1}})+1)+max(0,{\color{Blue}{2.5}}-({\color{Red}{-3.1}})+1)\\ & =max(0,6.3)+max(0,6.6)\\ & =6.3+6.6\\ & =12.09 \end{align}$
最终计算结果如下图所示：

总的损失为：

L = 1 N \sum i = 1 N L i = (2.9 + 0 + 12.9) = 5.27 (8) (9) (10)

$\begin{align} L&=\frac{1}{N}\sum_{i=1}^{N}L_i\\ &=(2.9+0+12.9)\\ &={\color{Red}{5.27}} \end{align}$
现在损失已经计算好了。

程序实现

这种损失在通过Python程序如何实现呢？

def L_i_vectorized(x,y,w):
    scores = W.dot(x) //计算scores
    margins = np.maximum(0,scores-scores[y]+1)  //计算SVM loss Ly
    margins[y] = 0  //无需计算该样本对应的margin，因此，将margins对应的值置0
    loss_i = np.sim(margins) //elements to sum
    return loss_i   //返回SVM loss L_y

正则化项的引入

当不引入正则化项时，最终的分类器仅在训练数据上有良好的分类效果，从而引入了Data loss，如下图所示，此时并不能对test data进行好的估计，也就是所谓的过拟合，我们期待最终的分类器是简单的，因此，引入正则项，则最终的效果如下图所示：
!DL4-未引入正则项
!DL5-引入正则项
常用的正则项：
1. L2 regularization $R(W)=\sum{k}

back-propagation

BP算法的主要流程可以总结如下：
　　BP算法的主要流程可以总结如下：
　　输入：训练集 $D={(x_k, y_k)}_{k=1}^{m}$ ; 学习率;
　　过程：
　　1. 在(0, 1)范围内随机初始化网络中所有连接权和阈值
　　2. repeat:
　　3.　　 for all $(x_{k}, y_{k}) \in D$ do
　　4. 　　　　根据当前参数计算当前样本的输出;
　　5. 　　　　计算输出层神经元的梯度项；
　　6. 　　　　计算隐层神经元的梯度项；
　　7. 　　　　更新连接权与阈值
　　8. 　　end for
　　9. until 达到停止条件
　　输出：连接权与阈值确定的多层前馈神经网络

参数说明

$w_{jk}^l$ ：从第 $\left( l-1 \right)^{th}$ 层的 $k^{th}$ neural到第 $l^{th}$ 层的 $j^{th}$ neural；
$b_j^l$ ：第 $l^{th}$ 层的第 $j^{th}$ 个神经元的bias；
$a_{j}^l$ ：第 $l^{th}$ 层的第 $j^{th}$ 个神经元的输出（与 $(l-1)^{th}$ 的加权输入并通过激活函数的结果）；
$z_{j}^l$ ：第 $l^{th}$ 层的第 $j^{th}$ 个神经元未经过激活函数的加权值；
这里写图片描述
！DL1-2-变量对应图

a l j = σ (z l j) = σ (\sum k w l j k * a l - 1 k + b l j) (181) (182)

$\begin{align} a_j^l & = \sigma \left( z_j^l\right)\\ & = \sigma \left( \sum_k w_{jk}^l \ast a_k^{l-1} + b_j^l\right)\\ \end{align}$
矩阵形式为：

a l = σ (z l) = σ (w l * a l - 1 + b l) (183) (184)

$\begin{align} a^l &= \sigma \left( z^l\right)\\ &=\sigma \left( w^l \ast a^l-1 +b^l\right)\\ \end{align}$
注意：

σ() σ ( ) $\sigma()$ 是激活函数，主要目的是引入非线性，有多种激活函数。
同时，损失函数也有多种类型，此例子中为误差均方根函数。

关于误差函数有两个假设：

first：误差函数 $\mit{C}$ 被看做所被训练样本的误差的均方根的平均（在批量梯度下降中会用到）,

最低0.47元/天解锁文章

Zfq740695564

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
深度学习（一）--反向传播算法

本文从李飞飞的课件cs231n的得到启发，将关于反向传播算法的内容做下总结。下图是对深度学习的只管解释：该图右侧表示图像空间，通过几个分界面将图像空间分成几个不同的区域，每个区域的图像具有相似的特征。左侧为卷积神经网络的简单版，将输入图像与权重矩阵W想乘，加上偏置项即可得到属于各个类别的scores，score越大，属于该类的概率越大。但是，基本思路是这样，具体实施的话...
复制链接

扫一扫

专栏目录