吴恩达机器学习笔记（六）

最新推荐文章于 2024-05-04 15:35:39 发布

上官永石

最新推荐文章于 2024-05-04 15:35:39 发布

阅读量177

点赞数

分类专栏：吴恩达机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_36793268/article/details/117842735

版权

吴恩达机器学习专栏收录该内容

14 篇文章 5 订阅

订阅专栏

1. 神经网络的代价函数

假设我们有下图所示的神经网络：

在这里插入图片描述
我们记其层数为 $L = 4$ ，记其第 $l$ 层神经元的个数(不包含偏置项)为 $s_l$ ，如 $s_1=3,s_2=5,\cdots$ 。

为了对不同的分类问题进行描述，我们定义两种分类：

二分类
对于二分类问题，我们只需要在输出层设置 $K = 1$ 个输出神经元，即 $s_L=1$ 。下图就表示是一个进行二分类的神经网络，其 $s_4=1$ ：
多分类
多分类是在输出层有 $K(K\geq3)$ 个输出单元的神经网络，即假设函数 $h_\theta(x)\in \mathbb{R}^K$ 是一个 $K$ 维的向量，下面的四个向量就表示四分类问题可能输出的结果。
$y^{(i)}= \left [ \begin{matrix} 1 \\ 0 \\ 0 \\ 0 \end{matrix} \right] 或 \left [ \begin{matrix} 0 \\ 1 \\ 0 \\ 0 \end{matrix} \right] 或 \left [ \begin{matrix} 0 \\ 0 \\ 1 \\ 0 \end{matrix} \right] 或 \left [ \begin{matrix} 0 \\ 0 \\ 0 \\ 1 \end{matrix} \right]$

因为我们使用一个输出单元就能表示二分类，所以多分类中的 $K\geq3$ 。

定义了不同的分类后，我们就可以为其定义代价函数。在神经网络中，我们使用和逻辑回归相同的代价函数，下式表示逻辑回归的代价函数：
$J(\theta) = - \frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} \log h_\theta(x^{(i)}) + (1-y^{(i)})\log(1-h_\theta(x^{(i)}) )\right] +\frac{\lambda}{2m}\sum_{j=1}^n\theta_j^2$

神经网络和逻辑回归不同的一点在于，输出结果 $h_\theta(x) \in \mathbb{R}^K$ 与真实标签 $y$ 都是一个 $K$ 维的向量，如果我们用 $\left(h_\theta(x)\right)_i$ 表示 $K$ 维向量中的第 $i$ 个元素， $y_i$ 表示真实标签中的第 $i$ 个元素，那么我们就可以将神经网络的代价函数表示为：
$\begin{aligned} J(\theta) = & -\frac{1}{m} \sum_{i=1}^{m} \sum_{k=1}^{K} \left[ y^{(i)}_k \log \left(h_\theta(x^{(i)})\right)_k + (1-y^{(i)}_k)\log\left(1- \left(h_\theta(x^{(i)})\right)_k \right) \right] \\ &+\frac{\lambda}{2m} \sum_{l=1}^{L-1} \sum_{i=1}^{s_l}\sum_{j=1}^{s_{l+1}} (\theta_{ji}^{(l)})^2 \end{aligned}$

上面的代价函数我们可以分为两部分进行理解：

前面的误差项其实就是在逻辑回归误差项的基础上，加入对 $K$ 维向量中每个元素之间的误差，对于预测结果只有一个值的情况，我们就不需要考虑 $K$ ，上式就退变为逻辑回归的代价函数。预测结果有多个值时，我们对这多个值分别求代价，进行累加，就是上式中对 $K$ 的求和项。
后面的正则项就是对神经网络中每个 $\theta$ 进行正则化。首先思考，对于有多个 $\theta$ 的线性回归和逻辑回归，我们都是对其中的每个 $\theta$ 都正则化。类比到神经网络，我们这里使用 $\theta^{(l)}$ 表示第 $l$ 层的参数，用 $\theta_{ji}$ 表示从 $s_l$ 层的第 $i$ 个神经元到 $s_{l+1}$ 层第 $j$ 个神经元的参数 $\theta$ 。所以整个正则项就表示对所有 $\theta$ 进行正则化。这里同样按照惯例没有考虑偏置的正则项，即 $\theta_0$ 。

2. 反向传播算法

上面我们给出了神经网络的代价函数，有了代价函数，我们的目的就是使得代价函数最小，即
$\min_\theta J(\theta)$

为了使用梯度下降算法最小化代价函数，我们还需要求得代价函数相对于每个 $\theta$ 参数的偏导数：
$\frac{\partial}{\partial\theta_{ij}^{(l)}}J(\theta)$

为了求解偏导数，我们从最简单的情况开始看，首先我们梳理前向传播的过程，对于只有一个样本的训练集 $(x, y)$ ，通过如下所示的神经网络，其前向传播的过程为：
$\begin{matrix} a^{(1)} =x & \rightarrow & \begin{aligned} z^{(2)} &=\theta^{(1)}a^{(1)} \\ a^{(2)} &=g(z^{(2)}) \\ \end{aligned} & \rightarrow & \begin{aligned} z^{(3)} &=\theta^{(2)}a^{(2)} \\ a^{(3)} &=g(z^{(3)}) \\ \end{aligned} & \rightarrow & \begin{aligned} z^{(4)} &=\theta^{(3)}a^{(3)} \\ a^{(4)} &=h_{\theta}(x)=g(z^{(4)}) \\ \end{aligned} \end{matrix}$
在这里插入图片描述

反向传播中需要计算每个结点和真实标签之间的误差 $\delta_j^{(l)}$ ，其表示 $l$ 层的第 $j$ 个结点的 $a_j^{(l)}$ 的误差。

具体来看，对于上图表示的神经网络，我们首先可以根据真实标签 $y$ 计算最后一层结点和真实标签之间的误差：
$\delta_j^{(4)}=a_j^{(4)}-y_j$

如果我们用向量表示真实标签和预测结果，就可以省略下标 $j$ ，从而第 $4$ 层的误差就可以表示为：
$\delta^{(4)}=a^{(4)}-y$

有了第四层的误差后，我们就可以根据 $\delta^{(4)}$ 来计算 $\delta^{(3)}$ ，再根据 $\delta^{(3)}$ 计算 $\delta^{(2)}$ ¹ ：
$\begin{aligned} \delta^{(3)} & =(\theta^{(3)})^T\delta^{(4)} .* g' (z^{(3)})\\ \delta^{(2)} & =(\theta^{(2)})^T\delta^{(3)} .* g' (z^{(2)})\\ \end{aligned}$

从上面误差的计算过程我们可以看出，我们首先计算出最后一层的误差，之后将最后一层的误差向前传播，不断地计算更前面一层的误差，最后传到第二层，反向传播的名字也因此而来。

通过上面的过程和一些数学证明，我们可以得到，在不考虑正则项时，代价函数相对于每个参数 $\theta$ 的偏导数可以表示为：
$\frac{\partial}{\partial\theta_{ij}^{(l)}}J(\theta) = a_j^{(l)}\delta_j^{(l+1)}$

当我们有更多的数据集时，如 $\{(x^{(1)},y^{(1)}), \cdots, (x^{(m)},y^{(m)})\}$ ，计算偏导数的过程如下：

设置误差 $\Delta_{ij}^{(l)}=0$
$\quad k=1 \quad to \quad m$
$\quad\quad a^{(1)}=x^{(k)}$
$\quad\quad compute \ \ a^{(l)},\ for \ \ l=2,3,\cdots,L$
$\quad\quad using \ \ y^{(i)}, compute \ \ \delta^{(L)}=a^{(L)}-y^{(k)}$
$\quad\quad compute \ \ \delta^{(L-1)},\delta^{(L-2)},\cdots,\delta^{(2)}$
$\quad\quad \Delta_{ij}^{(l)} = \Delta_{ij}^{(l)} + a_j^{(l)}\delta_i^{(l+1)}$
$D_{ij}^{(l)} = \frac{1}{m}\Delta_{ij}^{(l)}+\lambda\theta_{ij}^{(l)}, \quad j\neq 0$
$D_{ij}^{(l)} = \frac{1}{m}\Delta_{ij}^{(l)}, \quad j= 0$

其中， $\Delta_{ij}^{(l)}$ 表示所有样本对应位置误差的累加值。对于下面的赋值操作，当 $j = 0$ 时表示是偏置项， $j\neq 0$ 时，表示不是偏置项，需要加上正则项。

当我们计算出 $D_{ij}^{(l)}$ 后，代价函数相对于每个 $\theta$ 的偏导数就是：
$\frac{\partial}{\partial \theta_{ij}^{(l)}}J(\theta) =D_{ij}^{(l)}$

为了更好的理解反向传播，我们对 $\delta$ 进行更加深入的理解。首先我们简化代价函数，省略代价函数中的正则项，那么代价函数变为：
$J(\theta) = - \frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} \log h_\theta(x^{(i)}) + (1-y^{(i)})\log(1-h_\theta(x^{(i)}) )\right]$

为了更加简化代价函数，我们只考虑某个样本 $x^{(i)},y^{(i)})$ ，且假设神经网络的输出只有一个单元，那么我们就可以将该样本的代价函数可以写为：
$y^{(i)}\log h_\theta(x^{(i)}) + (1-y^{(i)})\log [1- h_\theta(x^{(i)})]$

我们可以将代价函数 $c o s t (i)$ 看作是预测值 $h_\theta(x^{(i)})$ 和真实值 $y^{(i)}$ 之间的接近程度。 $\delta_j^{(l)}$ 可以看作第 $l$ 层第 $j$ 个单元激活项 $a_j^{(l)}$ 的误差，用公式可以表示为：
$\delta_j^{(l)} = \frac{\partial}{\partial z_j^{(l)}}cost(i)$

也就是代价函数相对于网络中的中间项 $z_j^{(l)}$ 的偏导数，这些中间项是通过权重 $\theta$ 计算出来的，所以我们对这些中间项求偏导就表示我们要以多大的程度改变 $\theta$ 才能通过 $z_j^{(l)}$ 计算得到和真实标签相近的 $h_\theta(x)$ 。

如下图所示，我们将所有 $z,a,\delta$ 都标注在结点中，类比于前向传播， $\delta^{(l)}$ 的计算可以通过 $\delta^{(l+1)}$ 得到，例如：
$\begin{aligned} \delta_1^{(4)} & = a_1^{(4)} - y^{(i)} \\ \delta_2^{(2)} & = \theta_{12}^{(1)}\delta_1^{(3)} + \theta_{22}^{(2)}\delta_2^{(3)} \end{aligned}$
在这里插入图片描述

3. 参数随机初始化

在线性回归和逻辑回归中，其参数 $\theta$ 都是可以直接初始化为 $0$ ，但是在神经网络中将所有参数 $\theta_{ij}^{(l)}=0$ 会造成错误的结果。如下所示

在这里插入图片描述

如果所有的权重 $\theta_{ij}^{(l)}=0$ 那么经过前向传播， $a_1^{(2)}=a_2^{(2)}$ ，通过反向传播， $\delta_1^{(2)}=\delta_2^{(2)}$ ，因此 $\frac{\partial}{\partial \theta_{01}^{(1)}}J(\theta)=\frac{\partial}{\partial \theta_{02}^{(1)}}J(\theta)$ ，这意味着每次更新，图中相同颜色的参数都相同，如 $\theta_{01}^{(l)}=\theta_{02}^{(l)}$ 。如果存在很多层隐藏层，那么每个隐藏层的参数都相同，它们都在学习相同的特征，这会导致神经网络不能有效的工作。