反向传播算法为什么要“反向”

最新推荐文章于 2022-08-09 12:15:55 发布

aoyi3705

最新推荐文章于 2022-08-09 12:15:55 发布

阅读量1.7k

点赞数 1

CC 4.0 BY-SA版权

文章标签：人工智能数据结构与算法

原文链接：http://www.cnblogs.com/kangheng/p/10345024.html

反向传播算法是深度学习的基础，用于求解损失函数最小值时的梯度。通常，从输出层开始，利用链式法则逐层向前计算梯度，避免了大量重复计算，类似于动态规划的优化策略。本文通过一道编程题的对比，解释了反向传播算法中'反向'的原因和必要性。

反向传播算法是深度学习的最重要的基础，这篇博客不会详细介绍这个算法的原理和细节。，如果想学习反向传播算法的原理和细节请移步到这本不错的资料。这里主要讨论反向传播算法中的一个小细节：反向传播算法为什么要“反向”？

背景

在机器学习中,很多算法最后都会转化为求一个目标损失函数（loss function）的最小值。这个损失函数往往很复杂，难以求出最值的解析表达式。而梯度下降法正是为了解决这类问题。直观地说一下这个方法的思想：我们把求解损失函数最小值的过程看做“站在山坡某处去寻找山坡的最低点”。我们并不知道最低点的确切位置，“梯度下降”的策略是每次向“下坡路”的方向走一小步，经过长时间的走“下坡路”最后的停留位置也大概率在最低点附近。这个“下坡路的方向”我们选做是梯度方向的负方向，选这个方向是因为每个点的梯度负方向是在该点处函数下坡最陡的方向。至于为什么梯度负方向是函数下降最陡的方向请参考大一下的微积分教材，或者看看这个直观的解释。在神经网络模型中反向传播算法的作用就是要求出这个梯度值，从而后续用梯度下降去更新模型参数。反向传播算法从模型的输出层开始，利用函数求导的链式法则，逐层从后向前求出模型梯度，那么为什么要从后向前呢？