机器学习笔记07：神经网络的反向传播(Backpropagation)

最新推荐文章于 2024-07-30 01:28:06 发布

imxietx

最新推荐文章于 2024-07-30 01:28:06 发布

阅读量1.2w

点赞数 17

分类专栏： Machine Learning Coursera 斯坦福大学机器学习笔记文章标签：神经网络的反向传播反向传播推导神经网络机器学习梯度下降

本文链接：https://blog.csdn.net/Artprog/article/details/51397289

版权

——–本文中除了在图片下方标记了出处的图片，均为原创，转载请注明出处——–

上一篇文章《机器学习笔记06：神经网络的表示(Neural Networks-Representation)》大概描述了神经网络的起源、结构、表示、工作方法及一些应用。今天这篇文章对应 Coursera 上的Stanford机器学习课程的week05。主要的内容是神经网络的学习，包括梯度下降、反向传播等。

1.误差函数(Cost Function)

线性回归和逻辑回归中都用到了误差函数来衡量模型的准确度，当然神经网络也不例外。先来看一个神经网络的图片，这里需要引入一些标记，以便于后面的描述。

本图片属于Stanford机器学习课程，转载请注明出处
对于神经网络，有如下几个记号：

Notation	Representation
$\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),...,(x^{(m)},y^{(m)}),\}$	training set (训练集)
$L$	total no. of layers in network (网络的层数)
$S_l$	no. of units(not counting bias unit) in layer $l$ (第 $l$ 层的单元数，不算偏置单元)

对于二元分类问题， $y=0$ or $1$ 。输出单元也只有一个。即 $S_L=1$ （最后一层只有一个单元）；对于多类分类问题（类数大于2），若类数为 $K$ ，则 $y\in R^K$ 。如上图的四类分类问题中，有

y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ 1000 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥, ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ 0100 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥, ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ 0010 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥, ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ 0001 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$y=\left[\begin{matrix}1\\0\\0\\0 \end{matrix}\right],\left[\begin{matrix}0\\1\\0\\0 \end{matrix}\right],\left[\begin{matrix}0\\0\\1\\0 \end{matrix}\right],\left[\begin{matrix}0\\0\\0\\1 \end{matrix}\right]$ 输出层（最后一层）的单元数量也为

K $K$ 。

现在来看误差函数(Cost Function)。先来回顾一下逻辑回归中的误差函数：

J (θ) = - 1 m \sum i = 1 m [y (i) log (h θ (x (i))) + (1 - y (i)) log (1 - h θ (x (i)))] + λ 2 m \sum j = 1 n θ 2 j

$J(\theta)=-\frac{1}{m}\sum_{i=1}^m \left[ y^{(i)} \log (h_\theta (x^{(i)}))+(1-y^{(i)})\log(1-h_\theta(x^{(i)}))\right]+\frac{\lambda}{2m}\sum_{j=1}^n \theta_j^2$ 其中第一项是原来的误差函数，第二项是惩罚项。

现在来看看神经网络的误差函数。首先需要知道 $h_\Theta(x) \in R^K$ ， $(h_\Theta(x))_i = i^{th} \,output$ 。神经网络的误差函数可以记为如下：

J (Θ) = - 1 m [\sum i = 1 m \sum k = 1 K y (i) k log (h Θ (x (i))) k + (1 - y (i) k) log (1 - h Θ (x (i))) k] + λ 2 m \sum l = 1 L - 1 \sum i = 1 S l \sum j = 1 S l + 1 (Θ (l) j i) 2

$J(\Theta)=-\frac{1}{m}\left[\sum_{i=1}^m \sum_{k=1}^K y_k^{(i)} \log (h_\Theta (x^{(i)}))_k+(1-y_k^{(i)}) \log(1-h_\Theta(x^{(i)}))_k \right]+\frac{\lambda}{2m}\sum_{l=1}^{L-1}\sum_{i=1}^{S_l}\sum_{j=1}^{S_{l+1}}(\Theta_{ji}^{(l)})^2$
其中

K $K$ 为输出层的单元数，即类数。在计算误差的时候，需要将每一类都计算进去。后面的惩罚项是整个神经网络中所有的参数

Θ $\Theta$ 的值之和。注意

i $i$ 是从 1 开始，因为我们通常不处理偏差项，就如在逻辑回归中不处理

θ0 $\theta_0$ 一样。以上就是神经网络中误差函数。

2.反向传播算法(Backpropagation Algorithm)

反向传播在神经网络中是一个非常重要的部分。它的主要作用是最小化误差函数，也就是提高神经网络的准确性。和在线性回归和逻辑回归中一样，我们采用梯度下降(Gradient descent)法来最优化误差函数。上面已经说明了误差函数为：

J (Θ) = - 1 m \sum i = 1 m \sum k = 1 K [y (i) k log (h Θ (x (i))) k + (1 - y (i) k) log (1 - h Θ (x (i))) k] + λ 2 m \sum l = 1 L - 1 \sum i = 1 S l \sum j = 1 S l + 1 (Θ (l) j i) 2

$J(\Theta)=-\frac{1}{m}\sum_{i=1}^m \sum_{k=1}^K \left[y_k^{(i)} \log (h_\Theta (x^{(i)}))_k+(1-y_k^{(i)}) \log(1-h_\Theta(x^{(i)}))_k \right]+\frac{\lambda}{2m}\sum_{l=1}^{L-1}\sum_{i=1}^{S_l}\sum_{j=1}^{S_{l+1}}(\Theta_{ji}^{(l)})^2$
在梯度下降的过程中，需要计算每个

Θ $\Theta$ 的偏导数，并用来更新

Θ $\Theta$ 自身：