反向传播的理解_为什么反向传播用梯度-CSDN博客

本文链接：https://blog.csdn.net/qq_41669665/article/details/98495127

前向传递输入信号直至输出产生误差，反向传播误差信息更新权重矩阵。

梯度下降是找损失函数极小值的一种方法，
反向传播是求解梯度的一种方法。

为啥用梯度下降？

由浅入深，我们最容易想到的调整参数（权重和偏置）是穷举。即取遍参数的所有可能取值，比较在不同取值情况下得到的损失函数的值，即可得到使损失函数取值最小时的参数值。然而这种方法显然是不可取的。因为在深度神经网络中，参数的数量是一个可怕的数字，动辄上万，十几万。并且，其取值有时是十分灵活的，甚至精确到小数点后若干位。若使用穷举法，将会造成一个几乎不可能实现的计算量。
第二个想到的方法就是微分求导。通过将损失函数进行全微分，取全微分方程为零或较小的点，即可得到理想参数。（补充：损失函数取下凸函数，才能使得此方法可行。现实中选取的各种损失函数大多也正是如此。）可面对神经网络中庞大的参数总量，纯数学方法几乎是不可能直接得到微分零点的。

因此我们使用了梯度下降法。既然无法直接获得该点，那么我们就想要一步一步逼近该点。一个常见的形象理解是，爬山时一步一步朝着坡度最陡的山坡往下，即可到达山谷最底部。（至于为何不能闪现到谷底，原因是参数数量庞大，表达式复杂，无法直接计算）我们都知道，向量场的梯度指向的方向是其函数值上升最快的方向，也即其反方向是下降最快的方向。计算梯度的方式就是求偏导。

至于为什么会提出反向传播算法，我直接应用梯度下降（Gradient Descent）不行吗？想必大家肯定有过这样的疑问。答案肯定是不行的，纵然梯度下降神通广大，但却不是万能的。梯度下降可以应对带有明确求导函数的情况，或者说可以应对那些可以求出误差的情况，比如逻辑回归（Logistic Regression），我们可以把它看做没有隐层的网络；但对于多隐层的神经网络，输出层可以直接求出误差来更新参数，但其中隐层的误差是不存在的，因此不能对它直接应用梯度下降，而是先将误差反向传播至隐层，然后再应用梯度下降，其中将误差从末层往前传递的过程需要链式法则（Chain Rule）的帮助，因此反向传播算法可以说是梯度下降在链式法则中的应用