神经网络的反向传播算法推导

最新推荐文章于 2023-10-06 21:45:23 发布

milkhq

最新推荐文章于 2023-10-06 21:45:23 发布

阅读量5.1k

点赞数 51

分类专栏： AI 文章标签：机器学习神经网络反向传播算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/milkhq/article/details/108777099

版权

有了上一篇神经网络的反向传播算法推导 — 前期知识准备做铺垫，下一步来看看反向传播算法具体的推导过程。一、定义机器学习中常说的两个函数：损失函数 (loss function)：是定义在单个样本上的，算的是一个样本的值和预测值的误差，记为C(Θ)；代价函数 (cost function)：是定义在整个训练集上的，是所有样本误差的平均，也就是损失函数的平均，记为J(Θ)；假设函数：二、神经网络结构图以三层神经网络为例： ...

摘要由CSDN通过智能技术生成

目录

二、神经网络结构图

三、反向传播算法的四个公式推导

有了上一篇神经网络的反向传播算法推导 — 前期知识准备做铺垫，下一步来看看反向传播算法具体的推导过程。

一、定义

机器学习中常说的两个函数：

损失函数 (loss function)：是定义在单个样本上的，算的是一个样本的值和预测值的误差，记为C(Θ)；

代价函数 (cost function)：是定义在整个训练集上的，是所有样本误差的平均，也就是损失函数的平均，记为J(Θ)；

假设函数： $h_{\theta }(x) = g(z^{l}) = g(\Theta^{l} x)$

[变量定义]

$s_{l}$ : 表示神经网络第 l 层神经元的个数

$s_{L}$ ：表示神经网络最终输出的类别数（L表示最后一层）

i： $\theta$ 的尺寸/维度的列，第 i 列

j： $\theta$ 的尺寸/维度的行，第 j 行

二、神经网络结构图

以三层神经网络为例：

（图1）

上图按照神经网络的计算方法（如不清楚的请参考文章从逻辑回归到神经网络）：

（图2）

说明：图2中将 $\theta _{10}^{(2)}$ 、 $\theta _{20}^{(2)}$ 标为”常量“，有些欠妥，总之意思就是与 $a_{j}^{(2)}$ 无关。

在计算图中可表示如下（损失函数计算方式有多种，假设我们使用最小化误差函数 $\frac{1}{2} \sum_{i=1}^{n} (f(x_{i}) - y_{i})^{2}$ ）：

这里为什么不是平方误差损失函数 $\frac{1}{2m} \sum_{i=1}^{m} (f(x_{i}) - y_{i})^{2}$ ，我的理解是在神经网络在计算损失函数时 i 从1到 n对应的是一个样本的多个特征属性，而不是多个样本，因此无需求和后除以m.

三、反向传播算法的四个公式推导

先抛出反向传播算法的四个公式：

$\delta ^{L} = \bigtriangledown _{a} C$ $\odot$ $g^{'}(z^{L})$ -------------------- BP1

$\delta ^{l} = ( (\theta ^{l})^{T} \delta ^{l+1} )$

最低0.47元/天解锁文章

关注

51
点赞
踩
173

收藏

觉得还不错? 一键收藏
5
评论
神经网络的反向传播算法推导

有了上一篇神经网络的反向传播算法推导 — 前期知识准备做铺垫，下一步来看看反向传播算法具体的推导过程。一、定义机器学习中常说的两个函数：损失函数 (loss function)：是定义在单个样本上的，算的是一个样本的值和预测值的误差，记为C(Θ)；代价函数 (cost function)：是定义在整个训练集上的，是所有样本误差的平均，也就是损失函数的平均，记为J(Θ)；假设函数：二、神经网络结构图以三层神经网络为例： ...
复制链接

扫一扫

专栏目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。