多层神经网络与反向传播算法

最新推荐文章于 2024-07-12 11:45:29 发布

TaiJi1985

最新推荐文章于 2024-07-12 11:45:29 发布

阅读量2.8k

点赞数 1

分类专栏：机器学习深度学习 matlab 文章标签：神经网络反向传播算法 MLP 多层神经网络

本文链接：https://blog.csdn.net/taiji1985/article/details/73734081

版权

机器学习同时被 3 个专栏收录

21 篇文章 3 订阅

订阅专栏

深度学习

19 篇文章 1 订阅

订阅专栏

matlab

3 篇文章 1 订阅

订阅专栏

感知机

感知机就是我们前面学过的线性分类器加上一个激活函数。线性分类器:

网上弄来的图

v = w T x + b = (\sum i w i x i) + b

$v = w^Tx +b = (\sum_i w_ix_i)+b$

很多实际问题并不是线性可分的，所以需要用一个非线性函数将上述结果变为非线性的。

y = φ (v)

$y = \varphi (v)$
常用的激活函数有sigmoid 、tanh、ReLU、Softplus：

它们的函数图像分别是:
sigmoid

s i g m o i d (x) = 1 1 + e - x

$sigmoid(x) = \frac{1}{1+e^{-x}}$
tanh

t a n h (x) = e x - e - x e x + e - x

$tanh(x) = \frac{e^x - e^{-x}}{e^x+e^{-x}}$

这里写图片描述

R e L U (x) = m a x (0, x)

$ReLU(x) = max(0,x)$

这里写图片描述

s o f t p l u s (x) = l o g (1 + e - x)

$softplus(x) = log(1+e^{-x})$

多层神经网络

单层感知机无法处理或模拟像异或这种函数。如果将感知机连接起来构成一个多层神经网络，则可以满足类需求。也就说说多层神经网络的模拟能力远超过单层神经网络。。

这里写图片描述

设神经网络有L+1层，每一层的输出分别为 $[h_0,h_1,h_2,h_3,...,h_L$ ，其中 $h_i$ 均为增广向量。 $h_0$ 为输入 $\vec x$ ,h_L 为 $\vec y$ 。

各层的权值为 $[w_1 ,w_2 ,w_3,..., b_L]$ 和 $[b_1 ,b_2 ,b_3,..., w_L ]$ 。可以认为第0层没有权值，因为他的输出 $h_0$ 就是x,或者也可以认为 $w_0$ 为全一向量。这样 $h_0 = 1\dot{} x$ .

令 $\varphi_l$ 表示第 $l$ 层的激活函数。

h l = φ l (w T l - 1 h l - 1 + b l - 1), l = 1, 2, . . ., L

$h_l = \varphi_l (w_{l-1}^Th_{l-1} + b_{l-1}) , l = 1,2,...,L$ （式1）

误差函数

误差函数采用二阶范式即

L (w) = 1 2 N (y - y l a b e l) T (y - y l a b e l)

$L(w) = \frac{1}{2N}(y - ylabel )^T(y-ylabel)$ （式2）

R (w) = λ \sum l = 1 L w T l w l + b l

$R(w) = \lambda \sum_{l=1}^L w_l^Tw_l +b_l$ （式3）

J (w) = L (w) + R (w)

$J(w) = L(w) + R(w)$ （式4）

各种求导

为了下面的推导方便，我们先给出各种函数的求导结果。
sigmoid :

s' = s (1 - s)

$s' = s(1-s)$ （式5）
tanh:

t' = 1 - t 2

$t' = 1-t^2$ （式6）
ReLU:

r' = {01 if x < 0 if x \geq 0

$r' = \begin{cases} 0 & \text{ if } x< 0 \\ 1 & \text{ if } x \geq 0 \end{cases}$ （式7）
Softplus：

p' = s i g m o i d - 1

$p' = sigmoid - 1$ （式8）

线性函数

\partial y / \partial w = \partial \partial w (w T x) = x

$\partial y / \partial w = \frac{\partial }{\partial w} (w^Tx)= x$ （式9）

\partial \partial w (w T w) = w

$\frac{\partial }{\partial w} (w^Tw)= w$ （式10）

反向传播算法

为了能对这个神经网络模型进行学习，我们同样采用梯度下降法。我们求损失函数

\partial L ( w ) \partial w l = \partial L ( w ) \partial h L ˙ \partial h L \partial h L - 1 . . . \partial h l + 2 \partial h l + 1 ˙ \partial h l + 1 \partial h l ˙ \partial h l \partial w l

$\frac{\partial L(w)}{\partial w_l} = \frac{\partial L(w)}{\partial h_L } \dot{} \frac{\partial h_L}{\partial h_{L-1}} ... \frac{\partial h_{l+2}}{\partial h_{l+1}} \dot{} \frac{\partial h_{l+1}}{\partial h_l} \dot{} \frac{\partial h_l}{\partial w_l}$

\partial L ( w ) \partial b l = \partial L ( w ) \partial h L ˙ \partial h L \partial h L - 1 . . . \partial h l + 2 \partial h l + 1 ˙ \partial h l + 1 \partial h l ˙ \partial h l \partial b l

$\frac{\partial L(w)}{\partial b_l} = \frac{\partial L(w)}{\partial h_L } \dot{} \frac{\partial h_L}{\partial h_{L-1}} ... \frac{\partial h_{l+2}}{\partial h_{l+1}} \dot{} \frac{\partial h_{l+1}}{\partial h_l} \dot{} \frac{\partial h_l}{\partial b_l}$

（式11）

这个式子是怎么得到的呢？观察(式1）可以看出 $h_l$ 是 $h_{l-1}$ 的函数。所以运用复合函数求导法则，形成了上述公式。

我们再计算一个L(w)对 $w_{l+1}$ 的偏导数

\partial L ( w ) \partial w l + 1 = \partial L ( w ) \partial h L ˙ \partial h L \partial h L - 1 . . . \partial h l + 2 \partial h l + 1 ˙ \partial h l + 1 \partial w l + 1

$\frac{\partial L(w)}{\partial w_{l+1}} = \frac{\partial L(w)}{\partial h_L } \dot{} \frac{\partial h_L}{\partial h_{L-1}} ... \frac{\partial h_{l+2}}{\partial h_{l+1}} \dot{} \frac{\partial h_{l+1}}{\partial w_{l+1}}$

\partial L ( w ) \partial b l + 1 = \partial L ( w ) \partial h L ˙ \partial h L \partial h L - 1 . . . \partial h l + 2 \partial h l + 1 ˙ \partial h l + 1 \partial b l + 1

$\frac{\partial L(w)}{\partial b_{l+1}} = \frac{\partial L(w)}{\partial h_L } \dot{} \frac{\partial h_L}{\partial h_{L-1}} ... \frac{\partial h_{l+2}}{\partial h_{l+1}} \dot{} \frac{\partial h_{l+1}}{\partial b_{l+1}}$
（式12）

可以分析得到以下结论:

其一、最后一项为相应层的输出 $h_l$ 对相应的 $w_l$ 求导, 前面的项从最后的误差函数一直向前求导。

\partial L ( w ) \partial w l = \partial L ( w ) \partial h l ˙ \partial h l \partial w l

$\frac{\partial L(w)}{\partial w_l} = \frac{\partial L(w)}{\partial h_l} \dot{} \frac{\partial h_l}{\partial w_l}$

\partial L ( w ) \partial b l = \partial L ( w ) \partial h l ˙ \partial h l \partial b l

$\frac{\partial L(w)}{\partial b_l} = \frac{\partial L(w)}{\partial h_l} \dot{} \frac{\partial h_l}{\partial b_l}$

（式13）
其二、L(w)对 $w_l$ 求导和对 $w_{l+1}$ 求导公式有很多相同项。令

σ l = \partial L ( w ) \partial h l

$\sigma_l = \frac{\partial L(w)}{\partial h_l}$ （式14）
整理（式11）和（式12）得到

σ l = σ l + 1 ˙ \partial h l + 1 \partial h l

$\sigma_l = \sigma_{l+1} \dot{} \frac{\partial h_{l+1}}{\partial h_l}$ （式15）

对于最后一层，其输出就是整个神经网络的输出，所以不能用这个公式, 应该使用下面的公式。

σ L = \partial L ( w ) \partial h L

$\sigma_L = \frac{\partial L(w)}{\partial h_L }$

这个 $\sigma_l$ 称为误差传播项，可以从高层向低层逐层计算。

那么 $\partial h_{l+1}/\partial h_l$ 如何计算呢？根据（式1），可以得到:

\partial h l + 1 \partial h l = \partial φ l + 1 \partial v l + 1 ˙ \partial v l + 1 \partial h l = \partial φ l + 1 \partial v ˙ w l + 1

$\frac{\partial h_{l+1}}{\partial h_l} = \frac{\partial \varphi_{l+1}}{\partial v_{l+1}} \dot{} \frac{\partial v_{l+1}}{\partial h_l} = \frac{\partial \varphi_{l+1}}{\partial v} \dot{} w_{l+1}$ （式16）
其中

∂φl+1/∂v $\partial \varphi_{l+1} / \partial v$ 就是 (式5） - （式10）给出的,根据这个层的激活函数选用对应的偏导数。

有了误差L(w)对 $w_l$ 的偏导数，我们就可以使用梯度下降法求更新权值了。

w l = w l - α \partial L ( w ) \partial w l

$w_l = w_l - \alpha \frac{\partial L(w)}{\partial w_l}$

b l = w b l - α \partial L ( w ) \partial b l

$b_l = wbl - \alpha \frac{\partial L(w)}{\partial b_l}$

（式17）

代入（式13）和（式14），得到

w l = w l - α \partial L ( w ) \partial h l ˙ \partial h l \partial w l = w l - σ l \partial h l \partial φ l ˙ \partial φ l \partial w l = w l - σ l \partial h l \partial φ l h l - 1

$w_l = w_l - \alpha \frac{\partial L(w)}{\partial h_l} \dot{} \frac{\partial h_l}{\partial w_l} = w_l - \sigma_l \frac{\partial h_l}{\partial \varphi_l} \dot{} \frac{\partial \varphi_l}{\partial w_l} = w_l - \sigma_l \frac{\partial h_l}{\partial \varphi_l} h_{l-1}$

b l = b l - α \partial L ( w ) \partial h l ˙ \partial h l \partial b l = w l - σ l \partial h l \partial φ l ˙ \partial φ l \partial b l = w l - σ l \partial h l \partial φ l

$b_l = b_l - \alpha \frac{\partial L(w)}{\partial h_l} \dot{} \frac{\partial h_l}{\partial b_l} = w_l - \sigma_l \frac{\partial h_l}{\partial \varphi_l} \dot{} \frac{\partial \varphi_l}{\partial b_l} = w_l - \sigma_l \frac{\partial h_l}{\partial \varphi_l}$

（式18）