ml100days-serialize-5_read check silk square 50脳50cm-CSDN博客

本文链接：https://blog.csdn.net/qq_42121640/article/details/86545028

‘2019/Jan/18/Fri 17:48:26’

机器学习100天——第5天：梯度下降(Gradient descent)

求最优解的一个过程

梯度下降是一个用来求函数最小值的算法，我们将使用梯度下降算法来求出代价函数?(?0, ?1) 的最小值。
梯度下降背后的思想是：开始时我们随机选择一个参数的组合(?0,?1, . . . . . . , ??)，计算代价函数，然后我们寻找下一个能让代价函数值下降最多的参数组合。我们持续这么做直到得到一个局部最小值（local minimum），因为我们并没有尝试完所有的参数组合，所以不能确定我们得到的局部最小值是否便是全局最小值（global minimum），选择不同的初始参数组合，可能会找到不同的局部最小值

α 学习率

梯度下降算法通常指的是同步更新所有参数
在这里插入图片描述
导数,切线斜率,反方向,最优点
α太小,要很久才能达到,浪费时间
太大,可能超过,永远到不了,导致无法收敛,甚至发散

假设你将?1初始化在局部最低点，在这儿，它已经在一个局部的最优处或局部最低点。
结果是局部最优点的导数将等于零，因为它是那条切线的斜率。这意味着你已经在局部最优
点，它使得?1不再改变，也就是新的?1等于原来的?1，因此，如果你的参数已经处于局部最
低点，那么梯度下降法更新其实什么都没做，它不会改变参数的值。这也解释了为什么即使
学习速率?保持不变时，梯度下降也可以收敛到局部最低点。

在这里插入图片描述

在梯度下降法中，当我们接近局部最低点时，梯度下降法会自动采取更小的
幅度，这是因为当我们接近局部最低点时，很显然在局部最低时导数等于零，所以当我们接
近局部最低时，导数值会自动变得越来越小，所以梯度下降将自动采取较小的幅度，这就是
梯度下降的做法。所以实际上没有必要再另外减小α.
在这里插入图片描述
batch gradient descent
批量梯度下降
每次都是使用整个数据集