BP算法

gzj_1101

于 2018-05-28 21:34:47 发布

阅读量683

点赞数 2

分类专栏： machine learning 文章标签：神经网络 BP算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gzj_1101/article/details/80489137

版权

machine learning 专栏收录该内容

13 篇文章 1 订阅

订阅专栏

神经元模型

仿照生物的神经元模型，神经元接收到来自n个其他神经元的输入信号，这些输入信号带有犬只连接，神经元接收到的总输入值与神经元的阈值进行比较，然后通过激活函数产生神经元的输出。
如下图所示：

输入为 $[x_1,x_2,x_3,...,x_n]$
输出为 $y=f(\sum_{i=1}^Nw_ix_i-\theta)$

其中典型的激活函数有四种sigmod, softmax, tanh, relu。现在的深度学习里面用的激活函数一般是Relu.具体总结可以看我上一篇博客激活函数的选择。

感知机模型

感知机被视为最简单形式的前馈神经网络，是一种二元线性分类器，是神经网络和支持向量机的基础。感知机由两层神经元组成，输入层接受并处理外界信息，然后传递给输出层。如图所示：

其中 $x_1$ , $x_2$ 表示的是输入， $y$ 表示的是输出, $\theta$ 是阈值， $w_1$ , $w_2$ 表示的是权值。所以有：

y = f (w 1 x 1 + w 2 x 2 - θ)

$y=f(w_1x_1+w_2x_2-\theta)$

一般的，对于给定训练数据集，权值 $w_i(i=1,2,...,n)$ 以及阈值 $\theta$ 可通过学习得到。感知机的学习规则非常简单，对于训练样例 $(x,y)$ ，若当前感知机的输出为 $\hat y$ ，感知机的权值将这样调整：

w i \leftarrow w i + △ w i

$w_i\leftarrow w_i+\triangle w_i$

△ w i = η (y - y^) x i

$\triangle w_i=\eta(y-\hat y)x_i$

其中 $\eta\in(0,1)$ 称为学习率，其中可以出如果对于样例 $(x,y)$ 预测正确，即 $\hat y=y$ ,则感知机不会发生变化，否则根据错误程度进行调整。需要注意的是，感知机只有输出层有激活函数处理，其学习能力非常有限。

BP算法

对于包含隐含层的神经网络，就可以成为多层网络。

现在来看看BP算法。
对于给定数据集 $D=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\}$ ，其中 $x_i\in R^d,y_i\in R^l$ 。

一些变量的解释：

$v_{ih}$ 表示的是输出层第 $i$ 个神经元与隐含层第 $h$ 个神经元的连接权值
$w_{hj}$ 表示的是隐含层第 $h$ 个神经元与输出层第 $j$ 个神经元的连接权值
$\alpha_h=\sum_{i=1}^dv_{ih}x_i$ 表示为隐含层第 $h$ 个神经元的输入
$\beta_j=\sum_{h=1}^qw_{hj}b_ h$ 表示的是输出层第 $j$ 个神经元的输入
$b_h$ 表示隐含层第 $h$ 个神经元的输出

下图为一个拥有 $d$ 个输入神经元，l个输出神经元和q个隐含神经元的多层前馈神经网络。

对于训练样例 $(x_k,y_k)$ ，假定神经网络的的输出为 $\hat y_k=(\hat y_1^k,\hat y_2^k,...,\hat y_l^k)$ ，所以有：

y^k j = f (β j - θ j)

$\hat y_j^k=f(\beta_j-\theta_j)$

网络的误差为

E k = 1 2 \sum j = 1 l (y^k j - y k j) 2

$E_k=\frac{1}{2}\sum_{j=1}^l(\hat y_j^k-y_j^k)^2$

任意参数的更新估计式为

v \leftarrow v + △ v

$v\leftarrow v+\triangle v$

下面以隐含层到输出层的连接权 $w_{hj}$ 来进行推导

BP算法基于梯度下降的策略，以目标的负梯度方向对参数进行调整，对于误差 $E_k$ 和给定学习率 $\eta$ ，有：

△ w h j = - η \partial E k \partial w h j

$\triangle w_{hj}=-\eta\frac{\partial E_k}{\partial w_{hj}}$

$w_{hj}$ 是先影响输出层第 $j$ 个神经元，然后再进一步影响输出 $\hat y_j^k$ 的。所以有

\partial E k \partial w h j = \partial E k \partial y ^ k j \partial y ^ k j \partial β j \partial β j \partial w h j

$\frac{\partial E_k}{\partial w_{hj}}=\frac{\partial E_k}{\partial \hat y_j^k}\frac{\partial \hat y_j^k}{\partial \beta_j}\frac{\partial \beta_j}{\partial w_{hj}}$

其中有

\partial β j \partial w h j = b h

$\frac{\partial \beta_j}{\partial w_{hj}}=b_h$

其中激活函数为sigmod函数所以有 $f(x)=\frac{1}{1+e^{-x}}$
对于sigmoid函数有

f' (x) = f (x) (1 - f (x))

$f'(x)=f(x)(1-f(x))$

所以有

y^k j = f (β j - θ)

$\hat y_j^k=f(\beta_j-\theta)$

因此令

g j = - \partial E k \partial y ^ k j \partial y ^ k j \partial β j

$g_j=-\frac{\partial E_k}{\partial \hat y_j^k}\frac{\partial \hat y_j^k}{\partial \beta_j}$

= - (y^k j - y k j) y^k j (1 - y^k j)

$=-(\hat y_j^k-y_j^k) \hat y_j^k(1-\hat y_j^k)$

综合得：

△ w = η g (j) b h

$\triangle w=\eta g(j)b_h$

类似的能够得到

△ θ = - η g j

$\triangle \theta =-\eta g_j$

△ v = η e h g j

$\triangle v=\eta e_hg_j$

△ γ = - η e h

$\triangle\gamma=-\eta e_h$

其中 $e_h$ 表示的是隐含层的梯度。其实根据前面的结构图，我们能够得到公式 $b_h=f(\sum_{j=1}^dw_jhx_j-\gamma_h)$

所以有

e h = - \partial E k \partial b h \partial b h \partial a h

$e_h=-\frac{\partial E_k}{\partial b_h}\frac{\partial b_h}{\partial a_h}$

= - \sum j = 1 l \partial E k \partial β j \partial β j \partial b h f' (a h - γ h)

$= -\sum_{j=1}^l\frac{\partial E_k}{\partial \beta_j}\frac{\partial \beta_j}{\partial b_h}f'(a_h-\gamma_h)$

= - \sum j = 1 l g j w h j b h (1 - b h)

$=-\sum_{j=1}^lg_jw_{hj}b_h(1-b_h)$

上述流程图总结如下。

BP算法的目标是最小化训练集上的累计误差

E = 1 m \sum k = 1 m E k

$E=\frac{1}{m}\sum_{k=1}^mE_k$

参考文献

1.什么是学习率，以及他是如何影响深度学习的?

2.机器学习，周志华

3.统计学习方法，李航

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
BP算法

神经元模型仿照生物的神经元模型，神经元接收到来自n个其他神经元的输入信号，这些输入信号带有犬只连接，神经元接收到的总输入值与神经元的阈值进行比较，然后通过激活函数产生神经元的输出。如下图所示：输入为[x_1,x_2,x_3,…,x_n]输出为y=f(∑Ni=1wixi−θ)y=f(∑i=1Nwixi−θ)y=f(\sum_{i=1}^Nw_ix_i-\theta)其中典型...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。