机器学习之神经网络bp算法推导

最新推荐文章于 2022-11-29 08:59:05 发布

_bigPo

最新推荐文章于 2022-11-29 08:59:05 发布

阅读量5.8k

点赞数 6

分类专栏：机器学习文章标签：机器学习神经网络

本文链接：https://blog.csdn.net/firethelife/article/details/51326931

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

这是一篇学习UFLDL反向传导算法的笔记，按自己的思路捋了一遍，有不对的地方请大家指点。

首先说明一下神经网络的符号：
1. $n_l$ 表示神经网络的层数。
2. $s_l$ 表示第 $l$ 层神经元个数，不包含偏置单元。
3. $z_i^{(l)}$ 表示第 $l$ 层第 $i$ 个神经元的输入； $a_i^{(l)}$ 表示第 $l$ 层第 $i$ 个神经元的输出。
4. $W_{ij}^{(l)}$ 表示第 $l$ 层第 $j$ 个神经元连接到第 $l+1$ 层第 $i$ 个神经元的权重，因此权值矩阵 $W$ 的维数为 $s_{l+1}$ x $s_{l}$
图中给出第2层第1个神经元的传导计算方法
第二层各神经元的计算方法如下：

a (2) 1 a (2) 2 a (2) 3 a (2) 4 = f (W (1) 11 x 1 + W (1) 12 x 2 + W (1) 13 x 3 + b (1) 1) = f (W (1) 21 x 1 + W (1) 22 x 2 + W (1) 23 x 3 + b (1) 2) = f (W (1) 31 x 1 + W (1) 32 x 2 + W (1) 33 x 3 + b (1) 3) = f (W (1) 41 x 1 + W (1) 42 x 2 + W (1) 43 x 3 + b (1) 4)

$\begin{align} a_1^{(2)} &= f(W_{11}^{(1)}x_1 + W_{12}^{(1)} x_2 + W_{13}^{(1)} x_3 + b_1^{(1)}) \\ a_2^{(2)} &= f(W_{21}^{(1)}x_1 + W_{22}^{(1)} x_2 + W_{23}^{(1)} x_3 + b_2^{(1)}) \\ a_3^{(2)} &= f(W_{31}^{(1)}x_1 + W_{32}^{(1)} x_2 + W_{33}^{(1)} x_3 + b_3^{(1)}) \\ a_4^{(2)} &= f(W_{41}^{(1)}x_1 + W_{42}^{(1)} x_2 + W_{43}^{(1)} x_3 + b_4^{(1)}) \end{align}$
我们可以将其向量化表示：

z (2) a (2) = W (1) x + b (1) = f (z (2))

$\begin{align} \boldsymbol{z}^{(2)} &= W^{(1)}\boldsymbol{x} + \boldsymbol{b}^{(1)} \\ \boldsymbol{a}^{(2)} &= f(\boldsymbol{z}^{(2)}) \end{align}$
这里的矩阵

W $W$ 的具体形式为：

W 4 \times 3 = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ W (1) 11 W (1) 21 W (1) 31 W (1) 41 W (1) 12 W (1) 22 W (1) 32 W (1) 42 W (1) 13 W (1) 23 W (1) 33 W (1) 43 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$W_{4\times 3} = \begin{bmatrix} W_{11}^{(1)} & W_{12}^{(1)} & W_{13}^{(1)} \\ W_{21}^{(1)} & W_{22}^{(1)} & W_{23}^{(1)} \\ W_{31}^{(1)} & W_{32}^{(1)} & W_{33}^{(1)} \\ W_{41}^{(1)} & W_{42}^{(1)} & W_{43}^{(1)} \end{bmatrix}$
第

2 $2$ 层的神经元个数为

4 $4$ ，第

1 $1$ 层神经元的个数为

3 $3$ ，因此为

4×3 $4 \times 3$ 维的矩阵。

代价函数

对于单个样本我们将神经网络的代价函数定义为：

J (W, b; x, y) = 1 2 ∥ ∥ h W, b (x) - y ∥ ∥ 2

$\begin{align} J(W,b; x,y) = \frac{1}{2} \left\| h_{W,b}(x) - y \right\|^2 \end{align}$
对所有

K $K$ 个样本，神经网络的总的代价函数(这也是批量的由来)为：

J (W, b) = [1 K \sum k = 1 K J (W, b; x (k), y (k))] + λ 2 \sum l = 1 n l - 1 \sum i = 1 s l \sum j = 1 s l + 1 (W (l) j i) 2 = [1 K \sum k = 1 K (1 2 ∥ ∥ h W, b (x (k)) - y (k) ∥ ∥ 2)] + λ 2 \sum l = 1 n l - 1 \sum i = 1 s l \sum j = 1 s l + 1 (W (l) j i) 2

$\begin{align} J(W,b) &= \left[ \frac{1}{K} \sum_{k=1}^K J(W,b;x^{(k)},y^{(k)}) \right] + \frac{\lambda}{2} \sum_{l=1}^{n_l-1} \; \sum_{i=1}^{s_l} \; \sum_{j=1}^{s_{l+1}} \left( W^{(l)}_{ji} \right)^2\\ &= \left[ \frac{1}{K} \sum_{k=1}^K \left( \frac{1}{2} \left\| h_{W,b}(x^{(k)}) - y^{(k)} \right\|^2 \right) \right]+ \frac{\lambda}{2} \sum_{l=1}^{n_l-1} \; \sum_{i=1}^{s_l} \; \sum_{j=1}^{s_{l+1}} \left( W^{(l)}_{ji} \right)^2 \end{align}$

使用批量梯度下降算法寻求神经网络的最优参数

我们使用批量梯度下降算法寻求神经网络的最优参数 $W^{(l)}, b^{l}$ 。
我们先来看对于第 $l+1$ 层第 $i$ 个神经元来说，第 $l$ 层第 $j$ 个神经元的权值可按如下方式迭代更新：

W (l) i j = W (l) i j - α \partial \partial W ( l ) i j J (W, b) = W (l) i j - α ⎡ ⎣ ⎛ ⎝ 1 K \sum k = 1 K \partial \partial W ( l ) i j J (W, b; x (k), y (k)) ⎞ ⎠ + λ W (l) i j ⎤ ⎦

l+1 $l+1$ 层第

i $i$ 个神经元来说，第

l $l$ 层的偏置单元的权值可按如下方式迭代更新：

b (l) i = b (l) i - α \partial \partial b ( l ) i J (W, b) = b (l) i - α ⎡ ⎣ 1 K \sum k = 1 K \partial \partial b ( l ) i J (W, b; x (k), y (k)) ⎤ ⎦

$\begin{align} b_{i}^{(l)} &= b_{i}^{(l)} - \alpha \frac{\partial}{\partial b_{i}^{(l)}} J(W,b)\\ &= b_{i}^{(l)} - \alpha \left[ \frac{1}{K}\sum_{k=1}^K \frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x^{(k)}, y^{(k)})\right] \end{align}$

我们现在的目的是求出以下两个式子就可以对参数进行迭代了：

\partial \partial W ( l ) i j J (W, b; x (k), y (k)) \partial \partial b ( l ) i J (W, b; x (k), y (k))

$\begin{align} &\frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x^{(k)}, y^{(k)}) \\ &\frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x^{(k)}, y^{(k)}) \end{align}$

又我们知道第 $l+1$ 层第 $i$ 个神经元的输入 $z_i^{(l+1)}$ 可以由以下式子计算：

z (l + 1) i = \sum j = 1 s l W (l) i j a (l) j + b (l) i

$z_i^{(l+1)} = \sum_{j=1}^{s_l}W_{ij}^{(l)}a_j^{(l)}+b_i^{(l)}$
再进一步的对上面的式子进行变形：

\partial \partial W ( l ) i j J (W, b; x (k), y (k)) = \partial J ( W , b ; x ( k ) , y ( k ) ) \partial z ( l + 1 ) i \cdot \partial z ( l + 1 ) i \partial W ( l ) i j = \partial J ( W , b ; x ( k ) , y ( k ) ) \partial z ( l + 1 ) i \cdot a (l) j

$\begin{align} &\frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x^{(k)}, y^{(k)}) \\ & = \frac{\partial J(W,b; x^{(k)}, y^{(k)}) }{\partial z_{i}^{(l+1)}} \cdot \frac{\partial z_{i}^{(l+1)}}{\partial W_{ij}^{(l)}} \\ & = \frac{\partial J(W,b; x^{(k)}, y^{(k)}) }{\partial z_{i}^{(l+1)}} \cdot a_j^{(l)} \end{align}$

同样的，对于 $b_i^{(l)}$ 的偏导数：

\partial \partial b ( l ) i J (W, b; x (k), y (k)) = \partial J ( W , b ; x ( k ) , y ( k ) ) \partial z ( l + 1 ) i \cdot \partial z ( l + 1 ) i \partial b ( l ) i = \partial J ( W , b ; x ( k ) , y ( k ) ) \partial z ( l + 1 ) i

$\begin{align} &\frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x^{(k)}, y^{(k)}) \\ & = \frac{\partial J(W,b; x^{(k)}, y^{(k)}) }{\partial z_{i}^{(l+1)}} \cdot \frac{\partial z_{i}^{(l+1)}}{\partial b_i^{(l)}} \\ & = \frac{\partial J(W,b; x^{(k)}, y^{(k)}) }{\partial z_{i}^{(l+1)}} \end{align}$

残差的定义

接下来我们定义：

δ (l) i = \partial \partial z ( l ) i J (W, b; x (k), y (k))

$\begin{align} \delta^{(l)}_i = \frac{\partial}{\partial z^{(l)}_i} J(W,b; x^{(k)}, y^{(k)}) \end{align}$
为第

k $k$ 个样本在第

l $l$ 层第

i $i$ 个神经元上产生的残差。再次回顾我们的参数更新公式：
对于

W(l)ij $W_{ij}^{(l)}$ 我们有：

W (l) i j = W (l) i j - α \partial \partial W ( l ) i j J (W, b) = W (l) i j - α ⎡ ⎣ ⎛ ⎝ 1 K \sum k = 1 K \partial \partial W ( l ) i j J (W, b; x (k), y (k)) ⎞ ⎠ + λ W (l) i j ⎤ ⎦ = W (l) i j - α ⎡ ⎣ ⎛ ⎝ 1 K \sum k = 1 K \partial J ( W , b ; x ( k ) , y ( k ) ) \partial z ( l + 1 ) i \cdot a (l) j ⎞ ⎠ + λ W (l) i j ⎤ ⎦ = W (l) i j - α [(1 K \sum k = 1 K δ (l + 1) i \cdot a (l) j) + λ W (l) i j]

$\begin{align} W_{ij}^{(l)} &= W_{ij}^{(l)} - \alpha \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b) \\ &= W_{ij}^{(l)} - \alpha \left[ \left( \frac{1}{K} \sum_{k=1}^K \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x^{(k)}, y^{(k)})\right) + \lambda W_{ij}^{(l)} \right] \\ &= W_{ij}^{(l)} - \alpha \left[ \left( \frac{1}{K} \sum_{k=1}^K \frac{\partial J(W,b; x^{(k)}, y^{(k)}) }{\partial z_{i}^{(l+1)}} \cdot a_j^{(l)} \right)+ \lambda W_{ij}^{(l)} \right] \\ &= W_{ij}^{(l)} - \alpha \left[\left( \frac{1}{K} \sum_{k=1}^K \delta^{(l+1)}_i \cdot a_j^{(l)}\right) + \lambda W_{ij}^{(l)}\right] \end{align}$

类似的，对于 $b_i^{(l)}$ 我们有：

b (l) i = b (l) i - α \partial \partial b ( l ) i J (W, b) = b (l) i - α 1 K \sum k = 1 K \partial \partial b ( l ) i J (W, b; x (k), y (k)) = b (l) i - α 1 K \sum k = 1 K \partial J ( W , b ; x ( k ) , y ( k ) ) \partial z ( l + 1 ) i = b (l) i - α 1 K \sum k = 1 K δ (l + 1) i

$\begin{align} b_{i}^{(l)} &= b_{i}^{(l)} - \alpha \frac{\partial}{\partial b_{i}^{(l)}} J(W,b) \\ &= b_{i}^{(l)} - \alpha \frac{1}{K}\sum_{k=1}^K \frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x^{(k)}, y^{(k)}) \\ &= b_{i}^{(l)} - \alpha \frac{1}{K}\sum_{k=1}^K \frac{\partial J(W,b; x^{(k)}, y^{(k)}) }{\partial z_{i}^{(l+1)}} \\ &= b_{i}^{(l)} - \alpha \frac{1}{K}\sum_{k=1}^K \delta^{(l+1)}_i \end{align}$

现在的核心问题只剩下一个了，这个残差该如何求？
我们先计算最后一层第 $i$ 个神经元上的残差，这里为了简单起见，不再指定为第 $k$ 个样本。

δ (n l) i = \partial \partial z ( n l ) i J (W, b; x, y) = \partial \partial z ( n l ) i 1 2 ∥ ∥ h W, b (x) - y ∥ ∥ 2 = \partial \partial z ( n l ) i 1 2 \sum j = 1 s n l (y j - a (n l) j) 2 = \partial \partial z ( n l ) i 1 2 \sum j = 1 s n l (y j - f (z (n l) j)) 2 = - (y i - f (z (n l) i)) f' (z (n l) i)

$\begin{align} \delta^{(n_l)}_i &= \frac{\partial}{\partial z^{(n_l)}_i} J(W,b; x, y) \\ &= \frac{\partial}{\partial z^{(n_l)}_i}\frac{1}{2} \left\| h_{W,b}(x) - y \right\|^2 \\ &= \frac{\partial}{\partial z^{(n_l)}_i} \frac{1}{2}\sum_{j=1}^{s_{n_l}}(y_j - a_j^{(n_l)})^2 \\ &= \frac{\partial}{\partial z^{(n_l)}_i} \frac{1}{2}\sum_{j=1}^{s_{n_l}}(y_j - f(z_j^{(n_l)}))^2 \\ &= -(y_i - f(z_i^{(n_l)}))f'(z_i^{(n_l)}) \end{align}$

然后计算倒数第二层即第 $n_l - 1$ 层第 $i$ 个神经元的残差：

δ (n l - 1) i = \partial \partial z ( n l - 1 ) i J (W, b; x, y) = \partial \partial z ( n l - 1 ) i 1 2 \sum j = 1 s n l (y j - a (n l) j) 2 = 1 2 \sum j = 1 s n l \partial \partial z ( n l - 1 ) i (y j - f (z (n l) j)) 2 = \sum j = 1 s n l - (y j - f (z (n l) j)) \partial \partial z ( n l - 1 ) i f (z (n l) j) = \sum j = 1 s n l - (y j - f (z (n l) j)) f' (z (n l) j) \partial z ( n l ) j \partial z ( n l - 1 ) i = \sum j = 1 s n l δ (n l) j \partial \partial z ( n l - 1 ) i \sum q = 1 s n l W (n l - 1) j q f (z (n l - 1) q) = \sum j = 1 s n l W (n l - 1) j i δ (n l) j f' (z (n l - 1) i)

$\begin{align} \delta^{(n_{l-1})}_i &= \frac{\partial}{\partial z^{(n_{l-1})}_i} J(W,b; x, y) \\ &= \frac{\partial}{\partial z^{(n_{l-1})}_i} \frac{1}{2}\sum_{j=1}^{s_{n_l}}(y_j - a_j^{(n_l)})^2 \\ &= \frac{1}{2}\sum_{j=1}^{s_{n_l}}\frac{\partial}{\partial z^{(n_{l-1})}_i} (y_j - f(z_j^{(n_l)}))^2 \\ &= \sum_{j=1}^{s_{n_l}}-(y_j - f(z_j^{(n_l)}))\frac{\partial}{\partial z^{(n_{l-1})}_i}f(z_j^{(n_l)}) \\ &= \sum_{j=1}^{s_{n_l}}-(y_j - f(z_j^{(n_l)}))f'(z_j^{(n_l)})\frac{\partial z^{(n_{l})}_j}{\partial z^{(n_{l-1})}_i} \\ &= \sum_{j=1}^{s_{n_l}} \delta^{(n_{l})}_j \frac{\partial}{\partial z^{(n_{l-1})}_i} \sum_{q=1}^{s_{n_l}}W_{jq}^{(n_{l-1})}f(z_q^{(n_{l-1})}) \\ &= \sum_{j=1}^{s_{n_l}}W_{ji}^{(n_{l-1})} \delta^{(n_{l})}_j f'(z_i^{(n_{l-1})}) \end{align}$

下面是残差传播的示意图：
这里写图片描述
从这里可以看出紧挨着的两层神经元之间的残差是有关系的，这也是反向传播的由来。更一般的，可以将上述关系表述为：

δ (l) i = \sum j = 1 s l + 1 W (l) j i δ (l + 1) j f' (z (l) i)

$\delta^{(l)}_i = \sum_{j=1}^{s_{l+1}}W_{ji}^{(l)} \delta^{(l+1)}_j f'(z_i^{(l)})$

再再次回顾我们的参数更新公式：

W (l) i j b (l) i = W (l) i j - α [(1 K \sum k = 1 K δ (l + 1) i \cdot a (l) j) + λ W (l) i j] = b (l) i - α 1 K \sum k = 1 K δ (l + 1) i

$\begin{align} W_{ij}^{(l)} &= W_{ij}^{(l)} - \alpha \left[\left( \frac{1}{K} \sum_{k=1}^K \delta^{(l+1)}_i \cdot a_j^{(l)}\right) + \lambda W_{ij}^{(l)}\right] \\ b_{i}^{(l)} &= b_{i}^{(l)} - \alpha \frac{1}{K}\sum_{k=1}^K \delta^{(l+1)}_i \end{align}$

我们需要先计算输出层神经元的残差，然后一级一级的计算前一层的神经元的残差，利用这些残差就可以更新神经网络参数了。