BP神经网络的详细推导与完整代码_bp算法包含的数学公式及每个变量的含义-CSDN博客

本文链接：https://blog.csdn.net/qq_37633207/article/details/108894508

文章目录

BP推导全过程
任意层BP网络代码实现
- 运行结果如

BP推导全过程

最近老师布置了一个神经网络的作业，正好练习下LaTeX，顺便写了这个博客
BP的整个过程还是很严谨的、LaTeX写公式也很好用，建议一步步跟着公式走
另外还配上了代码供食用，代码配公式、效果更好

一些变量的含义

这里的的网络采用三层感知机结构
在这里插入图片描述

以简单的sigmod函数如为例：
$(x)=\frac {1}{1+e^{-x}}\\ f(x)'=f(x)(1-f(x))$
下面定义一些变量
$输入向量X=(x_1,x_2,\cdots x_n)^T \\ 隐层输出向量Y=(y_1,y_2,\cdots y_m)^T\\ 输入层到隐层的权重V\\ V=(V_1,V_2,\cdots,V_m)\\ 这里的V_j,j\in (1,\cdots,m)是下面矩阵的列向量\\ 表达式为：f(V_j \cdot X)=Y_j\\ V=\left[ \begin{array}{ccc} v_{11} & v_{12} & \cdots & v_{1m}\\ v_{21} & v_{22} & \cdots & v_{2m}\\ v_{31} & v_{32} & \cdots & v_{3m}\\ \cdots & \cdots&\cdots & \cdots \\ v_{n1} & v_{n2} & \cdots & v_{nm}\\ \end{array} \right]\\ \\ 输出层向量O=(o_1,o_2,\cdots,o_l)^{T}\\ 真实标签D=(d_1,d_2,\cdots,d_l)^T\\ 隐含层到输出层的权重W\\ W=(W_1,W_2,\cdots,W_l)\\ W_k,k\in(1,\cdots,l)为下面矩阵的第k个列向量\\ W=\left[ \begin{array}{ccc} w_{11} & w_{12} & \cdots & w_{1l}\\ w_{21} & w_{22} & \cdots & w_{2l}\\ w_{31} & w_{32} & \cdots & w_{3l}\\ \cdots & \cdots&\cdots & \cdots \\ w_{m1} & w_{n2} & \cdots & w_{ml}\\ \end{array} \right]\\ 下面公式表示的是隐藏层到输出层的过程 f(W_k\cdot Y)=O_k$

一些公式

对于输出层有(后面两个式子不过是展开了内积而已，本质一样)：
$o_k=f(net_k)=f(\sum_{j=0}^mw_{jk}y_j)=f(W_kY) \quad \quad \quad (1)$
对于隐含层
$y_j=f(net_j)=f(\sum_{i=0}^nv_{ij}x_i)=f(V_jX) \quad \quad \quad (2)$
对于输出层的梯度更新公式:
$输出层梯度更新量\quad\quad\Delta w_{jk}=-\eta \frac{\partial E}{\partial w_{jk}} \\ w_{jk}=w_{jk}+\Delta w_{jk}=w_{jk}-\eta\frac{\partial E}{\partial w_{jk}} \quad \quad(3)$
对于隐藏层的更新公式
$隐藏层梯度更新量\quad\quad\Delta v_{ij}=-\eta \frac{\partial E}{\partial v_{ij}} \\ v_{ij}=v_{ij}+\Delta v_{ij}=v_{ij}-\eta\frac{\partial E}{\partial v_{ij}} \quad\quad\quad(4)$
最后的误差公式的展开如下
$E=\frac{1}{2}\sum_{k=1}^l(d_k-o_k)^2 \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\\ 把公式（1）（2）带入\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\\ =\frac{1}{2}\sum_{k=1}^l(d_k-f[\sum_{j=0}^m w_{jk}f(net_j)])^2 \quad\quad\quad\quad\quad\quad\\ =\frac{1}{2} \sum_{k=1}^l (d_k-f[\sum_{j=0}^m w_{jk}f(\sum_{i=0}^nv_{ij}x_i)])^2\quad\quad\quad(5)$

开始推导

由上面的公式（3）（4）可知我们只要求出那两个梯度更新量就行了

对于输出层的梯度更新量，我们利用链式求导可以得到下面的公式
$\Delta w_{jk}=-\eta \frac{\partial E}{\partial w_{jk}}=-\eta\frac{\partial E}{\partial net_k}\frac{\partial net_k}{\partial w_{jk}}\\ 由公式（1）可知 \frac{\partial net_k}{\partial w_{jk}}=y_j\\ 即\Delta w_{jk}=-\eta\frac{\partial E}{\partial net_k}y_j \quad\quad\quad(6)\\$
对于隐藏层的梯度更新量，也是如此
$\Delta v_{ij}=-\eta \frac{\partial E}{\partial v_{ij}}=-\eta\frac{\partial E}{\partial net_j}\frac{\partial net_j}{\partial v_{ij}}\\ 由公式（2）可知 \frac{\partial net_j}{\partial v_{ij}}=x_i\\ 即\Delta v_{ij}=-\eta\frac{\partial E}{\partial net_j}x_i\quad\quad\quad(7)\\ 实际代码中我们求x_i 和y_j轻轻松松，只要保存网络每层的输出即可\\ 而且我们都是批量更新，批量更新效率更高$
所以我们只要求出下面两个公式即可求出对于每一层的梯度更新量
$我们把-\frac{\partial E}{\partial net_k}设为err_o\quad意思为输出层的误差信号\\ 再把-\frac{\partial E}{\partial net_j}设为err_y\quad意思为隐含层层的误差信号\\ err_o和err_y展开可得:\\ err_o=-\frac{\partial E}{\partial net_k}=-\frac{\partial E}{\partial o_k}\frac{\partial o_k}{\partial net_k}\\把公式(1)(5)代入上公式可得 \\ err_o=-\frac{\partial E}{\partial o_k}f(net_k)'=\sum_{k=1}^l(d_k-o_k)o_k(1-o_k)\quad\quad(8)\\ 可以看出来输出层的误差信号还是非常好求的\\ err_y稍微复杂点，我们还是先把他展开\\ err_y=-\frac{\partial E}{\partial net_j}\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\\ =-\frac{\partial E}{\partial y_j}\frac{\partial y_j}{\partial net_j}\quad\quad\quad\quad\quad\quad\\ =-\frac{\partial E}{\partial o_k}\frac{\partial o_k}{\partial y_j}\frac{\partial y_j}{\partial net_j}\quad\quad\quad\quad\\ =-\frac{\partial E}{\partial o_k}\frac{\partial o_k}{\partial net_k}\frac{\partial net_k}{\partial y_j}\frac{\partial y_j}{\partial net_j}\quad\\ 上面这几个求偏导的公式都有我们只需要带入公式(1)(2)(5)可得\\ err_y=\sum_{k=0}^l(d_k-o_k)\cdot o_k(1-o_k)\cdot w_{jk} \cdot y_j(1-y_j)\quad(9)\\ 我们观察可以发现err_y的一部分和err_o一模一样，所以把公式(8)带入(9)\\ 得err_y=err_ow_{jk}y_j(1-y_j)\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad(10)\\ 对于写代码来说,我们只要求出err_o后，后面一系列的隐藏层都非常好求\\ 只要用从后向前计算每一层的误差信号即可\\$
那么我们最终的结果就是如下公式
$\Delta w_{jk}=\eta\cdot err_o \cdot y_j\\ \Delta v_{ij}=\eta\cdot err_o w_{jk} y_j (1-y_j)\cdot x_i \\ 写成代码用向量批量计算的话就是如下所示\\ \Delta w=\eta\cdot (sum(D-O)\cdot O(1-O)) \cdot Y\\ \Delta v=\eta\cdot (sum(D-O)\cdot O(1-O)) W\cdot Y\cdot X \\$

任意层BP网络代码实现

参考这位老哥的代码： https://www.k2zone.cn/?p=1047

import numpy as np
def logistic(x):
    return 1/(1+np.exp(-x))
def logistic_derivative(x):
    return logistic(x) * (1 - logistic(x))

def tanh(x):
    return np.tanh(x)

def tanh_deriv(x):
    return 1.0 - np.tanh(x) * np.tanh(x)

class NeuralNetwork:
   #构造函数
   def __init__(self, layers, activation='tanh'):
       '''
       :param layers: list类型,比如[2,2.1]代表输入层有两个神经元,隐藏层有两个，输出层有一个
       :param activation: 激活函数
       '''
       self.layers = layers
       #选择后面用到的激活函数
       if activation == 'logistic':
           self.activation = logistic
           self.activation_deriv = logistic_derivative
       elif activation == 'tanh':
           self.activation = tanh
           self.activation_deriv = tanh_deriv
       #定义网络的层数
       self.num_layers = len(layers)
       '''
       生成除输入层外的每层中神经元的biase值，在（-1，1）之间，每一层都是一行一维数组数据
       randn函数执行一次生成x行y列的数据
       '''
       self.biases = [np.random.randn(x) for x in layers[1:]]
       print("初始偏向：",self.biases)
       '''
       随机生成每条连接线的权重，在（-1,1）之间
       weights[i-1]代表第i层和第i-1层之间的权重，元素个数等于i层神经元个数
       weights[i-1][0]表示第i层中第一个神经单元和第i-1层每个神经元的权重，元素个数等于i-1层神经元个数
       '''
       self.weights = [np.random.randn(y, x)
                       for x, y in zip(layers[:-1], layers[1:])]
       print("初始权重：",self.weights)

   #训练模型，进行建模
   def fit(self, X, y, learning_rate=0.2, epochs=1):
       '''
       :param self: 当前对象指针
       :param X: 训练集
       :param y: 训练标记
       :param learning_rate: 学习率
       :param epochs: 训练次数
       :return: void
       '''
       for k in range(epochs):
           #每次迭代都循环一次训练集
           for i in range(len(X)):
               #存储本次的输入和后几层的输出
               activations = [X[i]]
               #向前一层一层的走
               for b, w in zip(self.biases, self.weights):
                   # print "w:",w
                   # print "activations[-1]:",activations[-1]
                   # print "b:", b
                   #计算激活函数的参数,计算公式：权重.dot(输入)+偏向
                   z = np.dot(w, activations[-1])+b

                   #计算输出值
                   output = self.activation(z)
                   #将本次输出放进输入列表，后面更新权重的时候备用
                   activations.append(output)
               # print "计算结果",activations
               #计算误差值
               """
               下面这行代码参考公式8
               """
               error = y[i]-activations[-1]
               """
               计算输出层误差率
               参考公式9
			   """
               deltas = [error * self.activation_deriv(activations[-1])]

               #循环计算隐藏层的误差率,从倒数第2层开始
               for l in range(self.num_layers-2, 0, -1):
                   # print "第l层的权重",self.weights[l]
                   # print "l+1层的误差率",deltas[-1]
                   deltas.append(self.activation_deriv(activations[l]) * np.dot( deltas[-1],self.weights[l]))
               #将各层误差率顺序颠倒，准备逐层更新权重和偏向
               deltas.reverse()
               """
               更新权重和偏向
               参考公式3、4
               """
               for j in range(self.num_layers-1):
                   #本层结点的输出值
                   layers = np.array(activations[j])
                   # print "本层输出：",layers
                   # print "错误率：",deltas[j]
                   # 权重的增长量，计算公式，增长量 = 学习率 * (错误率.dot(输出值))
                   delta = learning_rate * ((np.atleast_2d(deltas[j]).T).dot(np.atleast_2d(layers)))
                   #更新权重
                   self.weights[j] += delta
                   #print "本层偏向：",self.biases[j]
                   #偏向增加量，计算公式：学习率 * 错误率
                   delta = learning_rate * deltas[j]
                   #print np.atleast_2d(delta).T
                   #更新偏向
                   self.biases[j] += delta
               #print self.weights

   def predict(self, x):
       '''
       :param x: 测试集
       :return: 各类型的预测值
       '''
       for b, w in zip(self.biases, self.weights):
           # 计算权重相加再加上偏向的结果
           z = np.dot(w, x) + b
           # 计算输出值
           x = self.activation(z)
       return x

nn = NeuralNetwork([2,4,3,1], 'tanh')
#训练集
X = np.array([[0, 0], [0, 1], [1, 0],[1, 1]])
#lanbel标记
y = np.array([0, 1, 1, 0])
#建模
nn.fit(X, y, epochs=2000)
#预测
for i in [[0, 0], [0, 1], [1, 0], [1,1]]:
   print(i, nn.predict(i))