BP神经网络的反向求导

最新推荐文章于 2024-07-07 10:16:08 发布

treasuresss

最新推荐文章于 2024-07-07 10:16:08 发布

阅读量6.1k

点赞数

分类专栏： machine-learning 深度学习文章标签：神经网络

本文链接：https://blog.csdn.net/treasuresss/article/details/50809148

版权

该博客详细阐述了BP神经网络的反向求导过程，主要针对单隐层神经网络。通过前向传播和反向传导的介绍，解释了如何利用梯度下降法更新权重和偏置，以最小化cost function J(w,b)。文中强调理解单样本的反向传导，并给出δ的递推公式，为求解权重和偏置的偏导数提供方法。" 111579369,10294948,LoadRunner的Socket脚本编写指南,"['性能测试', 'Socket编程', 'LoadRunner工具', '脚本开发']

摘要由CSDN通过智能技术生成

BP神经网络

本文章主要是记录BP神经网络的反向求导的具体过程，主要参考是UFLDL Tutoial。
中文版教程请戳此

神经网络

经典的神经网络是由多个感知器（神经元）构成的全连接的网络，本质上来说，这样的连接只是简单的线性加权和而已，所以每个神经元加上同一个非线性函数（如sigmoid，tanh等），使得网络能拟合非线性，其中这个非线性函数成为激活函数。

符号描述

为简便叙述，本文中的神经网络都是最简单的三层神经网络（即单隐层）。

前向传播

a (l) = f (z (l))

$a^{(l)}=f(z^{(l)})$

z (l) = w (l - 1) \cdot a (l - 1) + b (l - 1)

$z^{(l)}= w^{(l-1)}\cdot a^{(l-1)}+b^{(l-1)}$

反向传导

假设BPNN的cost function为

J (w, b) = 1 m \sum i = 1 m J (w, b; x (i), y (i)) 其 中 : J (w, b; x (i), y (i)) = 1 2 (y (i) - h w, b (x (i))) 2

$J(w,b)=\frac{1}{m} \sum_{i=1}^{m}J(w,b;x^{(i)},y^{(i)}) \\ 其中: J(w,b;x^{(i)},y^{(i)})=\frac{1}{2}(y^{(i)}-h_{w,b}(x^{(i)}))^2$ 为便于公式推导的理解，此处不加上正则项（并非必需）。

此处我们是要找到最佳的w,b使得 $J(w,b)$ 即cost function的值最小，因此 $J$ 是关于 $w,b$ 的函数，其中 $w,b$ 也不是标量，是很多 $w_{ij},b_i$ 的集合。这里要强调的是：我们的cost function中没有显式的看到 $w,b$ 的表达式，那是因为用简单的 $h_{w,b}(x^{(i)}$ 替换了，所以一定要牢记 $J$ 的展开表达式（假设能展开）中只有 $w,b$ 才是变量，其他都是已知的。强调这点是因为下面推导的时候很容易迷失在各种符号中而忘了这最本质的概念。