机器学习—BP神经网络

最新推荐文章于 2024-08-19 23:29:22 发布

橙子啵啵

最新推荐文章于 2024-08-19 23:29:22 发布

阅读量211

点赞数 2

分类专栏：吴恩达机器学习课程整理文章标签：神经网络算法机器学习

本文链接：https://blog.csdn.net/Ducky_/article/details/117638617

版权

神经网络前向传播代价函数反向传播梯度检验

关键词由CSDN通过智能技术生成

吴恩达机器学习课程整理专栏收录该内容

9 篇文章 0 订阅

订阅专栏

BP神经网络

往期内容

1. 单变量线性回归
 2. 多变量线性回归
 3. 逻辑回归
 4. 正则化

神经网络的基本概念

神经网络模型是由许多逻辑单元按照不同层级组织起来的网络。如下图所示，神经网络通常分为输入层（layer1）、隐藏层（layer2） 和输出层（layer3） 三类。每一层的输出变量都是下一层的输入变量。

其中， $a_i^{(j)}$ 表示第 $j$ 层的第 $i$ 个激活单元（activation unit）。用 $\theta^{(j)}$ 代表从第 $j$ 层影射到第 $j + 1$ 层时的权重矩阵，给每一层添加一个偏置单元（bias unit），可以得到激活单元的输出表达式如下：
$a_1^{(2)}=g(\Theta^{(1)}_{10}x_0+\Theta^{(1)}_{11}x_1+\Theta^{(1)}_{12}x_2+\Theta^{(1)}_{13}x_3)$ $a_2^{(2)}=g(\Theta^{(1)}_{20}x_0+\Theta^{(1)}_{21}x_1+\Theta^{(1)}_{22}x_2+\Theta^{(1)}_{23}x_3)$ $a_3^{(2)}=g(\Theta^{(1)}_{30}x_0+\Theta^{(1)}_{31}x_1+\Theta^{(1)}_{32}x_2+\Theta^{(1)}_{33}x_3)$
$h_{\Theta}(x)=g(\Theta^{(2)}_{10}a_0^{(2)}+\Theta^{(2)}_{11}a_1^{(2)}+\Theta^{(2)}_{12}a_2^{(2)}+\Theta^{(2)}_{13}a_3^{(2)})$
像这样从左到右的算法称为前向传播算法（forword propagation）。我们可以把 $a_i^{(j)}$ 看成更高级的特征值，也就是 $x_i$ 的进化体。

神经网络的代价函数

神经网络结构如下图所示：

其中，m — 训练样本数；
L — 神经网络层数；
$S_I$ — 每层的神经元个数， $S_L$ 即为最后一层中的输出单元个数；
类似于逻辑回归的代价函数，神经网络的代价函数可以表示如下：
$J(\Theta)=-\frac1m[\sum^m_{i=1}\sum^k_{k=1}y_k^{(i)}log(h_{\Theta}(x^{(i)}))_k+(1-y_k^{(i)})log(1-(h_{\Theta}(x^{(i)}))_k)]+\frac{\lambda}{2m}\sum^{L-1}_{l=1}\sum^{s_l}_{i=1}\sum^{s_{l+1}}_{j=1}(\Theta^{(l)}_{ji})^2$ 这个代价函数虽然看起来复杂，但其背后的思想还是不变的。前面一部分累加是对每一组特征的K种预测结果与真实情况y进行比较；正则化那一项只是排除了每一行的 $\theta_0$ ，最里层的循环 $j$ 循环的是权重矩阵的所有行；循环 $i$ 循环的是权重矩阵的所有列。

反向传播（back propagation）

在用神经网络进行预测的时候，我们采用的是正向传播算法，现在为了计算代价函数的偏导数 $\frac{\partial}{\partial\Theta^{(l)}_{ij}}J(\Theta)$ 需要采用反向传播算法。
如上图4层的神经网络， $K = 4$ ， $S_L=4$ ， $L = 4$ 。前向传播过程如下：
$a^{(1)}=x$ $z^{(2)}=\Theta^{(1)}a^{(1)}$ $a^{(2)}=g(z^{(2)})$ $z^{(3)}=\Theta^{(2)}a^{(2)}$ $a^{(3)}=g(z^{(3)})$ $z^{(4)}=\Theta^{(3)}a^{(3)}$ $a^{(4)}=g(z^{(4)})$
在计算误差时，需要从最后一层的误差开始计算，即：
$\delta^{(4)}=a^{(4)}-y$ $\delta^{(3)}=(\Theta^{(3)})^T\delta^{(4)}*g'(z^{(3)})$ $\delta^{(2)}=(\Theta^{(2)})^T\delta^{(3)}*g'(z^{(2)})$
现在用 $\Delta_{ij}^{(l)}$ 来表示误差矩阵，那么最后可由以下两式计算代价函数的偏导数：
$D_{ij}^{(l)}:=\frac1m\Delta_{ij}^{(l)}+\lambda\Theta_{ij}^{(l)}\ \ \ \ \ \ if\ \ j\neq0$ $D_{ij}^{(l)}:=\frac1m\Delta_{ij}^{(l)}\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ if\ \ j=0$

梯度检验

对较复杂的模型使用梯度下降时，为了防止一些不易察觉的错误的发生，通常使用梯度数值检验（Numerical Gradient Checking） 对其梯度下降算法进行验算。当 $\theta$ 是一个向量时，需要使用偏导数进行计算，下面以 $\theta_1$ 为例：
$\frac{\partial}{\partial\theta_1}=\frac{J(\theta_1+\epsilon_1,\theta_2,\theta_3...\theta_n)-J(\theta_1,\theta_2,\theta_3...\theta_n)}{2\epsilon}$ 根据上面的方法，对每一个 $\theta$ 都计算出一个近似的梯度值，并将其储存在近似梯度矩阵中，最终将得到的这个矩阵同 $D_{ij}^{(l)}$ 进行比较。