当我们在谈论深度学习的“学习过程”的时候,我们在谈论什么?
对,在谈论梯度下降(Gradient Descent)。
如果你还不知道什么是梯度下降,可以看看之前的梯度下降(Gradient Descent)的技巧和原理 https://blog.csdn.net/qq_36459893/article/details/82290553。
下面是梯度下降的一般过程。由于神经网络独特的结构,所以对它做梯度下降有一丢丢复杂,需要引入一个技术:反向传播算法(Backpropogation)
在进入正题前,先复习一下微积分的链式求导法则。
梯度下降的关键是求梯度,简单来说就是求损失函数(Loss function)对所有参数求偏导组成的向量。
求L对w的偏导,也就是求每一项C对w的偏导。
求可以分解为两步