梯度下降与随机梯度下降
我们期望代价函数尽可能的小,但实际情况下我们不能直接通过数学解解除对应的最小值,于是产生了我们的梯度下降法求代价函数的最小值,相关概念可以看前面的博客
将代价函数看做两个维度上的更改,那么代价函数引起的变化,是由v1、v2引起的
将两个维度上的变化写成向量的形式
我们希望代价函数尽可能小,所以这里代价函数的变化我们期望为负值,我们取
因此可以得到代价函数的变化
恒为负数。
进而进行梯度下降的过程
随机梯度下降
我们期望以部分样本代价函数的平均来估计所有样本代价函数的平均
反向传播算法
上面的梯度下降的过程描述了如何求代价函数最小的过程,其中梯度下降的过程我们需要知道梯度是多少,而梯度的求法就是我们的反向传播算法。
反向传播算法可以分为正向传播和反向误差传播
其实这里以数学的链式求导来理解会比较好理解
假设我们的代价函数的变化是由于第l层到第l+1层的w的变化引起的,我们从代价函数开始追溯,追溯到w的变化,可以理解成链式求导的过程
另外补充一点,这里的误差反向传播的由来,我们可以想一下,如果代价函数是均方误差的表示,那么对第一层的激活函数求导,得到的y-a就是我们的误差,这也是误差这个叫法的由来