连载｜神经网络（下）

最新推荐文章于 2022-10-30 15:14:24 发布

二哥不像程序员

最新推荐文章于 2022-10-30 15:14:24 发布

阅读量2.2k

点赞数 1

分类专栏：数据挖掘深度学习机器学习文章标签：算法神经网络深度学习 python 人工智能

本文链接：https://blog.csdn.net/qq_35164554/article/details/105542285

版权

机器学习同时被 3 个专栏收录

48 篇文章 14 订阅

订阅专栏

数据挖掘

40 篇文章 18 订阅

订阅专栏

深度学习

21 篇文章 8 订阅

订阅专栏

误差逆传播算法（BP神经网络）

BP神经网络是一种按误差反向传播(简称误差反传)训练的多层前馈网络，其算法称为BP算法，它的基本思想是梯度下降法，利用梯度搜索技术，以期使网络的实际输出值和期望输出值的误差均方差为最小。

基本BP算法包括信号的前向传播和误差的反向传播两个过程。即计算误差输出时按从输入到输出的方向进行，而调整权值和阈值则从输出到输入的方向进行。

下面让我们从数学原理上来看一下BP算法是怎样工作的。

我们给定训练集 $D=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\}$ ，输入示例有d个属性，输出是一个l维的实值向量，转换成如下图所示的前馈神经网络的输入输出的形式，该神经网络拥有d个输入神经元、l个输出神经元以及q个隐藏神经元。

在这里插入图片描述

对于输出层第j个神经元的阈值我们用 $\theta_j$ 来表示，隐层中第h个神经元的阈值用 $\gamma_h$ 来表示，输入层第i个神经元与隐层第h个神经元之间的连接权为 $v_{hj}$ ，隐层第h个神经元与输出层第j个神经元之间的连接权为 $w_{hj}$ 。对于隐层和输出层的神经元假设我们都使用sigmoid函数。

对于训练样本 $x_k,y_k)$ ，假定神经网络的输出为

$\hat{y}_k=(\hat{y}_1^k,\hat{y}_2^k,...,\hat{y}_l^k)$

即对于第j个输出来说有（参考前馈神经网络）：

$\hat{y}_j^k=f(\beta_j-\theta_j)$ (1)

则我们可以得到相应的均方误差为：

$E_k=\frac{1}{2}\sum_{j=1}^l(\hat{y}_j^k-y_j^k)^2$ (2)

对于上图中的神经网络我们需要确定输入层到隐层的d*q个权值、隐层到输出层的q*l个权值、q个隐层神经元的阈值、l个输出层神经元的阈值，一共则是(d+l+1)*q+l个参数需要确定。

和之前的参数更新方式一样，我们对于任意参数v的更新方式可以表示为如下的形式：

$w\leftarrow w+\Delta w$

我们用隐层到输出层的连接权 $w_{hj}$ 为例来进行推导，BP算法基于梯度下降的策略，以目标的负梯度方向对参数进行调整，对上文中的误差 $E_k$ ，给定学习率 $\eta$ ，有：

$\Delta w_{hj}=-\eta\frac{\partial E_k}{\partial w_{hj}}$ (3)

我们根据上图中的网络关系可以知道 $w_{hj}$ 先影响到第j个输出层神经元的输入值 $\beta_j$ ，再影响到其输出值 $\hat{y}_j^k$ ，然后影响到 $E_k$ ，则有：

$\frac{\partial E_k}{\partial w_{hj}}=\frac{\partial E_k}{\partial \hat{y}_j^k}\cdot\frac{\partial \hat{y}_j^k}{\partial \beta_{j}}\cdot\frac{\partial \beta_j}{\partial w_{hj}}$ (4)

根据图中 $\beta_j$ 的定义可以得到：

$\frac{\partial \beta_j}{\partial w_{hj}}=b_h$ (5)

我们在前面假设神经元内都是sigmoid函数，并且sigmoid函数有一个很重要的导数性质如下：

$f^{'} (x) = f (x) (1 - f (x))$

因此我们可以根据式（1）（2）得到如下的式子（抛去 $b_h$ 的部分）：

$g_i=\frac{\partial E_k}{\partial \hat{y}_j^k}\cdot\frac{\partial \hat{y}_j^k}{\partial \beta_{j}}$

$g_i=-(\hat{y}_j^k-y_j^k)f'(\beta_j-\theta_j)$

$g_i=(y_j^k-\hat{y}_j^k)\hat{y}_j^k(1-\hat{y}_j^k)$ (6)

我们把式子（5）（6）带入（4）式再带入（3）式可以得到如下的参数更新公式：

$\Delta w_{hj}=\eta g_ib_h$

类似的我们也可以得到其他参数的更新公式：

$\Delta \theta_{j}=-\eta g_i$

$\Delta v_{ih}=\eta e_hx_i$

$\Delta \gamma_{h}=\eta e_h$

$e_h=b_h(1-b_h)\sum_{j=1}^lw_{hj}g_j$

以上便是我们BP算法的推导过程，在整个过程中我们先通过输出层得到误差，再从误差入手进行反向传播更新参数就OK了。

注：通常我们把学习率设置为0.1，学习率控制着算法的每一轮迭代时的更新步长，若太大则容易震荡，太小则收敛速度又会过慢，有时我们会在不同的网络层之间设定不同的学习率。

下面给出BP神经算法的简单代码实现（带有隐层的神经网络）：

import numpy as np


def nonlin(x, deriv=False):
    if deriv == True:
        # 如果deriv=True我们就进行求导
        return x * (1 - x)
    else:
        # 返回sigmoid函数
        return 1 / (1 + np.exp(-x))


# 给定输入输出
x = np.array([[0, 0, 1], [1, 1, 1], [1, 0, 1], [0, 1, 1]])
y = np.array([[0, 1, 1, 0]]).T
# 均值与标准差
mu, sigma = 0, 0.1
w0 = np.random.normal(mu, sigma, (3, 5))
w1 = np.random.normal(mu, sigma, (5, 1))
# 定义迭代次数
iter_size = 1000
# 定义学习率
lr = 1
for i in range(iter_size):
    # 输入层
    L0 = x
    # 隐藏层（输入层和隐藏层间权重为w0)
    L1 = nonlin(L0.dot(w0))
    # 输出层（隐藏层和输出层间权重为w1)
    L2 = nonlin(L1.dot(w1))
    # 损失函数
    L2_loss = L2 - y
    # 输出层的导数
    L2_delta = L2_loss * nonlin(L2, True)
    # 隐藏层到输出层的梯度
    grad1 = L1.T.dot(L2_delta)
    # 隐藏层到输出层参数更新
    w1 -= grad1 * lr
    # L1对L2_loss贡献了多少，反过来传梯度时就要乘以这个权重
    L1_loss = L2_delta.dot(w1.T)
    # 隐藏层的导数
    L1_delta = L1_loss * nonlin(L1, True)
    # 输入层到隐藏层的梯度
    grad0 = L0.T.dot(L1_delta)
    # 输入层到隐藏层的参数更新
    w0 -= grad0 * lr
print(L2)