反向传播训练方法是以减小 loss 值为优化目标,有梯度下降、momentum 优化器、adam 优化器等优化方法。
本文介绍梯度下降法。
梯度下降法:
使用随机梯度下降算法,使参数沿着梯度的反方向,即总损失减小的方向移动,实现参数更新。
使用tensorflow的函数可以表示为:
train_step=tf.train.GradientDescentOptimizer(learning_rate).minimize(loss)
其中 learning_rate 表示学习率,学习率决定每次参数更新的幅度,优化器中都需要一个叫做学习率的参数,使用时,如果学习率选择过大会出现震荡不收敛的情况,如果学习率选择过小,会出现收敛速度慢的情况。我们可以选个比较小的值填入,比如 0.01、0.001。
loss表示损失函数,损失函数是指计算得到的预测值 y 与已知答案 y_的差距。
用图像表示为:
参数的更新公式是: