Deep Learning-1-一文读懂误差反向传播算法中的关键点、难点

最新推荐文章于 2024-08-18 00:00:52 发布

明宇朗心

最新推荐文章于 2024-08-18 00:00:52 发布

阅读量2.3k

点赞数 2

分类专栏： Deep Learning 文章标签：深度学习误差反向传播

本文链接：https://blog.csdn.net/qq_33869371/article/details/87862306

版权

Deep Learning 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Yolov-1-TX2上用YOLOv3训练自己数据集的流程(VOC2007-TX2-GPU)

Yolov--3--TensorRT中yolov3性能优化加速（基于caffe）

yolov-5-目标检测：YOLOv2算法原理详解

yolov--8--Tensorflow实现YOLO v3

yolov--9--YOLO v3的剪枝优化

yolov--10--目标检测模型的参数评估指标详解、概念解析

yolov--12--YOLOv3的原理深度剖析和关键点讲解

1、梯度下降法中的关键点

https://mattmazur.com/2015/03/17/a-step-by-step-backpropagation-example/

http://www.cedar.buffalo.edu/%7Esrihari/CSE574/Chap5/Chap5.3-BackProp.pdf

第一篇博客讲的非常详细，我就不再阐述了，主要写下自己在学习中遇到的问题

重点：

如果为多个输出，如上图，误差函数E对W1ij的偏导是对所有输出单元的导数的和

问题一：无限迭代时中间层的误差是否参与？

不参与

反向传播算法(Back Propagation)

我们首先直观的介绍反向传播算法，最后再来介绍这个算法的推导。当然读者也可以完全跳过推导部分，因为即使不知道如何推导，也不影响你写出来一个神经网络的训练代码。事实上，现在神经网络成熟的开源实现多如牛毛，除了练手之外，你可能都没有机会需要去写一个神经网络。

我们以监督学习为例来解释反向传播算法。在零基础入门深度学习(2) - 线性单元和梯度下降一文中我们介绍了什么是监督学习，如果忘记了可以再看一下。另外，我们设神经元的激活函数为函数(不同激活函数的计算公式不同，详情见反向传播算法的推导一节)。

我们假设每个训练样本为，其中向量是训练样本的特征，而是样本的目标值。

首先，我们根据上一节介绍的算法，用样本的特征，计算出神经网络中每个隐藏层节点的输出，以及输出层每个节点的输出。

然后，我们按照下面的方法计算出每个节点的误差项：

对于输出层节点i，

其中， ${\color{Red} \delta_i}$ 是节点的误差项(梯度中的一项,乘上输入值a4就为梯度)， $y_i$ 是节点的输出值， t_i 是样本对应于节点的目标值。举个例子，根据上图，对于输出层节点8来说，它的输出值是 y_1 ，而样本的目标值是 t_1 ，带入上面的公式得到节点8的误差项 $\delta_8$ 应该是：