机器学习笔记6 - 梯度下降

最新推荐文章于 2023-12-28 22:18:34 发布

weixin_41774576

最新推荐文章于 2023-12-28 22:18:34 发布

阅读量192

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

8 篇文章 1 订阅

订阅专栏

梯度下降的思想

梯度下降是求得函数最小值的算法。在逻辑回归中，梯度下降用来求得损失函数（或代价函数）的最小值J(θ)min。

初始随机选择权重参数组合(θ0,θ1,…,θn)，计算损失函数（或代价函数），然后寻找下一个能让损失函数（或代价函数）值下降最多的权重参数组合。

注：梯度下降在线性回归中求得是平方误差代价函数的最小值，逻辑回归中是求得损失函数的最小值。无论是代价函数还是损失函数（其实损失函数本身源于代价函数；而两者都源于本质的目标函数），梯度下降都是求解所要优化的函数。

过程

这里写图片描述

此处假设权重参数只有两个θ0和θ1。
α表示学习步长（learning rate）。
在梯度下降算法中需要同时更新θ0和θ1。
这里写图片描述

几个问题

1、α学习率的问题
α太小，找到局部最小值点需要的步数会很多；
α太大，每一次迭代会由于步子太大而越过最低点，会导致无法收敛，甚至发散。

2、初始点为局部最小值点
如果初始点恰好为局部最小值点，此时的导数为0，也就是切线的斜率为0，所以更新θ的值不会有变化。此时的θ也就是我们需要的参数。

3、为什么不需要更新或者改变α的值
在找到局部最小值的迭代过程中，按照我们的理解来说，应该在距离局部最小值点远的地方下降的快些，越靠近局部最小值点的时候应该下降的慢些（越接近目标越要小心翼翼）。

根据下图可以看出，在距离局部最小值点较远的时候，切线的斜率是较大的，对应θ值的改变也就越大，也就是下降的更快一些；而越接近局部最小值点的时候，切线的斜率越小，对应θ值的改变越小，也就是下降的速度变得慢了。因此，不需要改变α的值，偏导数∂J(θ)/∂θ就已经有了这个功能。初始值点在局部最小值点的左边也是一样。

这里写图片描述

weixin_41774576

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记6 - 梯度下降

梯度下降的思想梯度下降是求得函数最小值的算法。在逻辑回归中，梯度下降用来求得损失函数（或代价函数）的最小值J(θ)min。初始随机选择权重参数组合(θ0,θ1,…,θn)，计算损失函数（或代价函数），然后寻找下一个能让损失函数（或代价函数）值下降最多的权重参数组合。注：梯度下降在线性回归中求得是平方误差代价函数的最小值，逻辑回归中是求得损失函数的最小值。无论是代价函数还是损失函数（其...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。