Python 手写 BP神经网络

牛志易竖家

已于 2023-11-07 09:23:26 修改

阅读量360

点赞数

分类专栏：机器学习文章标签： python 神经网络机器学习

于 2023-09-19 20:55:03 首次发布

本文链接：https://blog.csdn.net/qq_45954661/article/details/133045743

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文详细介绍了误差反向传播(BP)算法在神经网络中的应用，包括计算均方误差、参数调整过程以及代码实现，重点展示了如何利用梯度下降策略更新权重和偏置，以优化模型性能。

摘要由CSDN通过智能技术生成

误差反向传播算法

输出层

对训练例 $\left(\boldsymbol{x}_{k}, \boldsymbol{y}_{k}\right)$ , 假定神经网络的输出为 $\hat{\boldsymbol{y}}_{k}=\left(\hat{y}_{1}^{k}, \hat{y}_{2}^{k}, \ldots, \hat{y}_{l}^{k}\right)$ , 即
$\hat{y}_{j}^{k}=f\left(\beta_{j}-\theta_{j}\right),$
则网络在 $\left(\boldsymbol{x}_{k}, \boldsymbol{y}_{k}\right)$ 上的均方误差为
$E_{k}=\frac{1}{2} \sum_{j=1}^{l}\left(\hat{y}_{j}^{k}-y_{j}^{k}\right)^{2} .$
BP 算法基于梯度下降(gradient descent)策略, 以目标的负梯度方向对参数进行调整. 对误差 $E_{k}$ , 给定学习率 $\eta$ , 有
$\Delta w_{h j}=-\eta \frac{\partial E_{k}}{\partial w_{h j}} .$

注意到 $w_{h j}$ 先影响到第 $j$ 个输出层神经元的输入值 $\beta_{j}$ , 再影响到其输出值 $\hat{y}_{j}^{k}$ , 然后影响到 $E_{k}$ ,那么根据链式法则有,
$\frac{\partial E_{k}}{\partial w_{h j}}=\frac{\partial E_{k}}{\partial \hat{y}_{j}^{k}} \cdot \frac{\partial \hat{y}_{j}^{k}}{\partial \beta_{j}} \cdot \frac{\partial \beta_{j}}{\partial w_{h j}} .$
因为有 $\beta_{j}= \sum\limits_{h=1}^{q} w_{hj}b_{h}$
我们将 $\beta_j$ 抽象为斜率为 $b_h$ 的一条直线,那么自然有
$\frac{\partial \beta_{j}}{\partial w_{h j}}=b_{h} .$

$g_{j} =-\frac{\partial E_{k}}{\partial \hat{y}_{j}^{k}} \cdot \frac{\partial \hat{y}_{j}^{k}}{\partial \beta_{j}}$
$=-\left(\hat{y}_{j}^{k}-y_{j}^{k}\right) f^{\prime}\left(\beta_{j}-\theta_{j}\right)$
$=\hat{y}_{j}^{k}\left(1-\hat{y}_{j}^{k}\right)\left(y_{j}^{k}-\hat{y}_{j}^{k}\right) .$

结合上式得 $\Delta w_{h j}$
$\Delta w_{h j}=\eta g_{j} b_{h} .$
类似可得

$\Delta \theta_{j} =-\eta g_{j},$

$\Delta \gamma_{h} =-\eta e_{h},$

隐藏层

同理得出
$\begin{equation} \begin{split} e_{h} = &\ -\frac{\partial E_{k}}{\partial b_{h}} \cdot \frac{\partial b_{h}}{\partial \alpha_{h}} \\ =&\ -\sum_{j=1}^{l} \frac{\partial E_{k}}{\partial \beta_{j}} \cdot \frac{\partial \beta_{j}}{\partial b_{h}} f^{\prime}\left(\alpha_{h}-\gamma_{h}\right)\\ = &\ f^{\prime}\left(\alpha_{h}-\gamma_{h}\right)\sum\limits_{j=1}^{l}w_{hj}g_{j} \end{split} \end{equation}$
$\Delta v_{i h} =\eta e_{h} x_{i},$
$\Delta \gamma_{h} =-\eta e_{h},$

代码实现

from sklearn.model_selection import train_test_split
import numpy as np
import pandas as pd
from sklearn import datasets


iris = datasets.load_iris()
data = iris.data
target = iris.target

class NeuralNetwork:
    def __init__(self, in_size, o_size, h_size):
        # 初始化层的数量
        self.in_size = in_size
        self.o_size = o_size
        self.h_size = h_size
        
        self.W1 = np.random.randn(in_size, h_size) # n x b的矩阵
        self.W2 = np.random.randn(h_size, o_size) # b x k的矩阵
        
    def sigmod(self, x):
        return 1 / (1 + np.exp(-x))
    
    # 映射函数,将连续值变成离散值
    def ref(self, x):
        if x <= (1 / 3):
            return 0
        elif x <= (2 / 3):
            return 1
        else:
            return 2
        
    # 设输入X为 m x n的矩阵
    def forward(self, X):
        vec_rule = np.vectorize(self.ref)
        self.z2 = np.dot(X, self.W1) # m x b
        self.act2 = self.sigmod(self.z2)
        self.z3 = np.dot(self.act2, self.W2)# m x k
        self.y_hat = self.sigmod(self.z3)
        self.y_hat = vec_rule(self.y_hat)
        
        return self.y_hat
    # 设y为 m x k 的矩阵
    def backward(self, X, y, y_hat, leraning_rate):
        # 算出输出层的梯度顶
        Grd_1 = (y - y_hat) *  self.sigmod(self.z3) * (1 - self.sigmod(self.z3)) # m x k
        # 输出层的Δ值
        Delta_W2 = np.dot(self.act2.T, Grd_1) # b x k
        # 隐藏层的梯度顶
        Grd_2 = np.dot(Grd_1, self.W2.T) * self.sigmod(self.z2) * (1 - self.sigmod(self.z2)) # m x b
        # 隐藏层的Δ值
        Delta_W1 = np.dot(X.T, Grd_2) # n x b
        
        # 更新权值
        self.W1 += leraning_rate * Delta_W1
        self.W2 += leraning_rate * Delta_W2
        
    def tarin(self, X, y, learning_rate, num_epochs):
        # 检查形状
        if(X.shape[0] != y.shape[0]):
            return -1;
        for i in range(1, num_epochs + 1):
            y_hat = self.forward(X)
            self.backward(X, y, self.y_hat, learning_rate)
        # 输出均方误差
            loss = np.mean((y - y_hat) ** 2)
            print(f"loss = {loss}, epochs/num_epochs:{i}/{num_epochs}")
    def predict(self, X):
        y_pred = self.forward(X)
        return y_pred

注: 部分公式来自周志华的西瓜书

牛志易竖家

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
Python 手写 BP神经网络

对训练例xkyk, 假定神经网络的输出为yky1ky2kylk, 即yjkfβj−θj则网络在xkyk上的均方误差为Ek21j1∑lyjk−yjk2BP 算法基于梯度下降(gradient descent)策略, 以目标的负梯度方向对参数进行调整. 对误差Ek, 给定学习率η, 有Δwhj−η∂w。
复制链接

扫一扫

专栏目录