举例说明:地图上的海拔就是loss function的值,现在来找海拔的最低点,现在调整参数的值,找到loss最低的地方,用gradient descent的方法怎么做呢?
首先是找一个随机初始的地方,让这个随机的点往比较低的地方走,一直走到最低的点,所以这个最低的点就是local minima,那这个local minima是不是goabl minima呢?但是我们是不知道的。
哪有人就会问为什么用gradient descent的方法更新参数得到的loss不降反增呢?
举例说明:从开始的起点用gradient descent的方法来更新参数,那这个初始的点往比较低的地方走,反复用gradient descent的方法走到最低点,但是周围若有较高的点,用gradient descent的方法是跨不过去的。