吴恩达机器学习——第10章神经网络参数的反向传播算法

最新推荐文章于 2023-10-28 17:39:28 发布

丨马平生丨

最新推荐文章于 2023-10-28 17:39:28 发布

阅读量401

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/u013252773/article/details/100552501

版权

机器学习专栏收录该内容

22 篇文章 1 订阅

订阅专栏

第10章神经网络参数的反向传播算法

1、代价函数
2、反向传播算法
3、展开参数
4、梯度检测
- 4.1 目的
- 4.2 原理
5、随机初始化
6、处理流程
- 6.1 选择网络架构
- 6.2 处理流程
7、资料

1、代价函数

神经网络的代价函数类似于逻辑回归的代价函数：
$J(θ)=-\frac{1}{m}\left[\sum_{i=1}^m\sum_{k=1}^ky^{(i)}_klog(h_θ(x^{(i)}))_k+(1-y_k^{(i)})log(1-(h_θ(x^{(i)}))_k)\right]+\frac{\lambda}{2m}\sum_{l=1}^{L-1}\sum_{i=1}^{s_l}\sum_{j=1}^{s_l+1}(θ_{ji}^{(l)})^2$

上述的代价函数看上去非常复杂，其实跟逻辑回归函数的含义是一样的，区别在于神经网络支持多个输出 $h_θ(x)$ 。

下面介绍一下函数中各个函数的含义：

m：代表样本的数量，i代表某个样本的下标， $x^{(i)}$ 代表某个样本对应的所有特征， $y^{(i)}$ 代表某个样本对应的实际分类结果，而 $h_θ(x^{(i)})$ 代表预测的结果。
k：代表分类的数量，神经网络的输出层的节点数=k。 $y_k^{(i)}$ 代表第k个节点的实际分类结果，而 $h_θ(x^{(i)}))_k$ 代表第k个节点预测的结果。
$\lambda$ 是正则化参数。
L代表神经网络的层的总数，之前我们介绍神经网络 $θ^{(i)}$ 的时候提起过，它是第i层到第i+1层的权重矩阵，所以 $θ$ 所对应的的层数是(1,L-1）。
$s_l$ 代表是第 $l$ 层的激活项的数量，所以 $\sum_{i=1}^{s_l}$ 代表的是第l层的每一项的和。i代表的是特征的数量，在这里因为 $s_l$ 代表的就是该层的输入项的数量，也就是特征的数量，所以i的取值范围是（0， $s_l$ ），不过一般会省略 $θ_0$ ，所以i的取值范围就是(1, $s_l$ )。
$s_l+1$ ：应该是包含上 $\theta_0$ 的意思。 $\theta_{ji}^{(l)}$ 中的上标l的指的是网络的层数，j指的是节点的下标，i指的是 $\theta$ 的下标。

2、反向传播算法

在这之前，我们先回顾一下前向传播算法。

假设只有一个训练集（x，y）、神经网络为4层的情况，则：

第一层的激活项就是： $a^{(1)} = x$
$z^{(2)}=θ^{(1)}a^{(1)}$
$a^{(2)}=g(z^{(2)})$
$z^{(3)}=θ^{(2)}a^{(2)}$
$a^{(3)}=g(z^{(3)})$
$z^{(4)}=θ^{(3)}a^{(3)}$
$a^{(4)}=g(z^{(4)})=h_θ(x)$

2.1 定义

前向传递输入信号直至输出产生误差，反向传播误差信息更新权重矩阵。

在不断重复前后传递的过程中，优化权重矩阵，得到最优模型。

2.2 原理

下面通过两个例子来说明反向传播的原理。

两人猜数字：
在这里插入图片描述

input：代表输入。
output：代表输出。
机器猫：代表预测结果与实际值的差距。

计算过程是这样的：

输入数据，经过小黄帽的计算，输出结果（前向传播）。
机器猫计算预测结果与真实结果的差。
小黄帽根据误差值，调整权重矩阵（反向传播）。
小黄帽根据最新的权重矩阵，重新进行结果（前向传播）。
重复上述步骤，直到误差值满足要求为止。

可以看出，反向传播就是把误差传递到上一层，推动上一层对权重矩阵进行优化。

三人猜数字
在这里插入图片描述
下面我们增加一个参与人员，即增加一个隐藏层。这时候计算过程就变成了如下的过程：

输入值经过小红帽、小黄帽的计算，输出结果（前向传播）。
机器猫计算预测值与实际值的误差 $\delta_1$ 。
小黄帽根据误差值，调整权重矩阵（反向传播）。
小黄帽调整完权重矩阵后，如果还有误差 $\delta_2$ ，就把这个误差 $\delta_2$ 再传递给小红帽（反向传播）。
小红帽根据误差值，调整权重矩阵（反向传播）。
由于小红帽是第一层，所以小红帽根据最新的权重矩阵进行计算（前向传播）。
小黄帽根据最新的权重矩阵，重新进行结果（前向传播）。
重复上述步骤，直到误差值满足要求为止。

值得注意的是第4步，我认为小黄帽传递给小红帽的误差值 $\delta_2$ ，与机器猫传递给小黄帽的误差值 $\delta_1$ 是不同的。 $\delta_2$ 是在更新权重矩阵后重新计算出来的误差值。

2.3 模型

$\delta^{(l)}=(\theta^{(l)})^T\delta^{(l+1)}.*g^{'}(z^{(l)})$
推导过程就算了，没那个能力，下面介绍下各个参数的含义：

$\delta^{(l)}$ ：代表第 $l$ 层的误差。
$\theta^{(l)}$ ：代表第 $l$ 层的权重矩阵。
“ $. *$ ”：是前后两个向量的乘法。
$g^{'}(z^{(l)})$ ：是对激活函数的求导。

2.4 反向传播的理解

下面用示意图的形式解释一下反向传播误差计算的大概原理，注意这只是示意，为了理解原理，实际上并没有这么简单：
在这里插入图片描述

如上图所示，该神经网络共有4层：

$s_1$ ：第一层为输入层，输入样本为 $x_1, x_2$ 。
$s_2$ ：第二层为隐藏层，预估结果为 $a^{(2)}$ ，误差项为 $\delta^{(2)}$ ，权重矩阵为 $\theta^{(2)}$ 。
$s_3$ ：第三层为隐藏层，预估结果为 $a^{(3)}$ ，误差项为 $\delta^{(3)}$ ，权重矩阵为 $\theta^{(3)}$ 。
$s_4$ ：第四层为输出层，预估结果为 $a^{(4)}$ ，误差项为 $\delta^{(4)}$ 。

我们知道误差=实际值-预估值，从第四层反向来看，实际结果为 $y^{(i)}$ ，可以得出各层的误差计算结果为：

$\delta_1^{(4)}=y^{(i)}-a^{(4)}_1$
第三层的误差计算方式与前向传播类似，但是方向是反的，所以可以得出：说实话，不知道为什么能推导出这个公式来？
$\delta^{(3)}_1=\theta^{(3)}_{11}*\delta^{(4)}_1$
$\delta^{(3)}_2=\theta^{(3)}_{12}*\delta^{(4)}_1$
第二层的误差为：
$\delta^{(2)}_1=\theta^{(2)}_{11}*\delta^{(3)}_1+\theta^{(2)}_{21}*\delta^{(3)}_2$
$\delta^{(2)}_2=\theta^{(2)}_{12}*\delta^{(3)}_1+\theta^{(2)}_{22}*\delta^{(3)}_2$

3、展开参数

本章介绍矩阵和向量的相互转换。

假设 $T_i$ 是矩阵， $V$ 是向量。

矩阵转向量：

$V=[T_1(:);T_2(:);T_3(:);]$

这样把每个矩阵的所有数据平铺形成一个向量。
向量转矩阵：

$T_1=reshape(V(1:110),10,11)$

取1-110元素，形成10*11的矩阵。

4、梯度检测

4.1 目的

反向传播在使用过程中非常容易出错，而且不容易发现，梯度检测就是一种校验反向传播结果的有效方式。

4.2 原理

使用梯度下降的方式求导，然后比较梯度检测的结果与反向传播的结果是否类似，如果类似则说明反向传播的计算结果无误，否则则应该进行优化。

先看一下梯度下降的求导方式：
在这里插入图片描述

如上图所示，是求导数的一种方式。

假设 $\epsilon$ 是一个非常小的值，接近于0，则 $\frac{\partial}{\partial\theta}\approx\frac{J(\theta+\epsilon)-J(\theta-\epsilon)}{2\epsilon}$

下面把该公式引入到 $\theta$ 为向量的情况下：

$\frac{\partial}{\partial\theta_1}\approx\frac{J(\theta_1+\epsilon,\theta_2,\theta_3,......\theta_n)-J(\theta_1-\epsilon,\theta_2,\theta_3,......\theta_n)}{2\epsilon}$

$\frac{\partial}{\partial\theta_m}\approx\frac{J(\theta_1,\theta_2,\theta_3,......\theta_m+\epsilon......\theta_n)-J(\theta_1,\theta_2,\theta_3,......\theta_m-\epsilon......\theta_n)}{2\epsilon}$

注意：梯度校验计算量非常大，校验完成后需要关闭掉。

5、随机初始化

参数 $\theta$ 需要设置初始值，一般采用随机方式： $rand(10,11)*(2*\epsilon)-\epsilon$ ，产生的随机数界于（ $-\epsilon,\epsilon$ ）之间。

6、处理流程

6.1 选择网络架构

神经网络的第一步是选择网络架构，选择网络架构需要遵循几个原则：

输入项的数目=特征的数量
输出项的数据=类别的数量
隐藏层的数目：一般选择 1
隐藏层单元的数目：各个隐藏层保持一致。单元的数目越多效果越好，但是计算量响应变大。

6.2 处理流程

神经网络整体的处理流程是：

构建神经网络架构。
前向传播计算。
计算 $J(\theta)$ 。
反向传播。
梯度检测。
停用梯度检测。
计算 $minJ(\theta)$ 。

7、资料

参考一文搞懂反向传播算法，本文对于反向传递的介绍非常容易理解。

丨马平生丨

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
吴恩达机器学习——第10章神经网络参数的反向传播算法

神经网络深入学习1、代价函数2、反向传播算法2.1 定义2.2 原理2.3 模型3、梯度校验4、随机初始化5、处理流程6、资料1、代价函数神经网络的代价函数类似于逻辑回归的代价函数：J(θ)=−1m[∑i=1m∑k=1kyk(i)log(hθ(x(i)))k+(1−yk(i))log(1−(hθ(x(i)))k)]+λ2m∑l=1L−1∑i=1sl∑j=1sl+1(θji(l))2J(θ)=...
复制链接

扫一扫