ml100days-serialize-5

‘2019/Jan/18/Fri 17:48:26’

机器学习100天——第5天:梯度下降(Gradient descent)

求最优解的一个过程

梯度下降是一个用来求函数最小值的算法,我们将使用梯度下降算法来求出代价函数?(?0, ?1) 的最小值。
梯度下降背后的思想是:开始时我们随机选择一个参数的组合(?0,?1, . . . . . . , ??),计算代价函数,然后我们寻找下一个能让代价函数值下降最多的参数组合。我们持续这么做直到得到一个局部最小值(local minimum),因为我们并没有尝试完所有的参数组合,所以不能确定我们得到的局部最小值是否便是全局最小值(global minimum),选择不同的初始参数组合,可能会找到不同的局部最小值

α 学习率

梯度下降算法通常指的是同步更新所有参数
在这里插入图片描述
导数,切线斜率,反方向,最优点
α太小,要很久才能达到,浪费时间
太大,可能超过,永远到不了,导致无法收敛,甚至发散

假设你将?1初始化在局部最低点,在这儿,它已经在一个局部的最优处或局部最低点。
结果是局部最优点的导数将等于零,因为它是那条切线的斜率。这意味着你已经在局部最优
点,它使得?1不再改变,也就是新的?1等于原来的?1,因此,如果你的参数已经处于局部最
低点,那么梯度下降法更新其实什么都没做,它不会改变参数的值。这也解释了为什么即使
学习速率?保持不变时,梯度下降也可以收敛到局部最低点。

在这里插入图片描述

在梯度下降法中,当我们接近局部最低点时,梯度下降法会自动采取更小的
幅度,这是因为当我们接近局部最低点时,很显然在局部最低时导数等于零,所以当我们接
近局部最低时,导数值会自动变得越来越小,所以梯度下降将自动采取较小的幅度,这就是
梯度下降的做法。所以实际上没有必要再另外减小α.
在这里插入图片描述
batch gradient descent
批量梯度下降
每次都是使用整个数据集

梯度下降,重在理解,使用时可直接调用.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值