本章上一篇可见链接
https://blog.csdn.net/Raine_Yang/article/details/128682091?spm=1001.2014.3001.5501
梯度下降法(gradient descend)
神经网络学习的目标是找到使损失函数最小的参数(权重和偏置)。通过求得损失函数(总损失关于权重和偏置的函数)梯度,寻找梯度下降的发现,即可找到函数最小值。
注意利用梯度下降发得到的不一定是最小值,而仅仅为一个极小值,及梯度为0.另外,当函数呈扁平状,学习可能会进入一个平坦区域,难以进展,被称为学习高原
梯度法即为从当前函数取值沿梯度方向前进一定距离,然后重新求梯度,再继续迭代。其中每一步前进步幅被称为学习率(learning rate)
用公式表示如下:
梯度下降法程序实现:
import numpy as np
def gradient_descent(f, init_x, lr = 0.01, step_num = 100):
x = init_x;
for i in range(step_num):
grad = numerical_gradient(f, x)
x -= lr * grad
return x
注:f 要优化的函数,init_x初始值&