bp神经网络推导及python实例

最新推荐文章于 2024-08-10 11:17:34 发布

Diamond-Mine

最新推荐文章于 2024-08-10 11:17:34 发布

阅读量3.7k

点赞数 3

分类专栏：机器学习

本文链接：https://blog.csdn.net/lgh1700/article/details/100708592

版权

bp神经网络

BP（back propagation，反向传播）神经网络（neural network），通常指具有三层网络结构的浅层神经网络。神经网络由一个个神经元（Neuron）组成，神经元由输入、计算、输出单元组成。

对应上图输入为 $x_1,x_2,\cdots,x_n$ 和截距 $+ 1$ ，输出为：
$\hat y=h_{w,b}(X)=f(w^T X)=f(\sum_{i=1}^n w_i x_i+b)$
其中w表示权重值，函数f为激活函数，有如下激活函数：
$f(x)=\frac{1}{1+exp^{-x} }$
$f(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}$
$R e L u : f (x) = m a x (0, x)$
$SoftPlus: f(x)=log_e(1+e^x)$
对应图像为：

一个三层的神经网络结构图：

损失函数

对于每个训练样本 $(X, y)$ ，损失函数为：
$J(W,b;X,y)=\frac{1}{2}||h_{w,b}(X)-y||^2$
表示最后一层输出层的输出值与实际值的欧式距离，结果是一个向量，向量维度等于输出层神经元数量。

为得到损失函数最小值，首先对参数进行初始化，初始化为一个接近0的随机值。再利用前向传播得到预测值，从而计算损失值。此时需要利用损失函数调整参数，可使用梯度下降法，梯度下降公式为：
$W_{ij}^l=W_{ij}^l-\alpha\frac{\partial J(W,b)}{\partial W_{ij}^l}$
$b_i^l=b_i^l-\alpha\frac{\partial J(W,b)}{\partial b_i^l}$
其中偏导部分：
$\frac{\partial J(W,b)}{\partial W_{ij}^l}=[\frac{1}{m}\sum_{k=1}^m \frac{\partial J(W,b;x^k,y^k)}{\partial W_{ij}^l} ]$