梯度下降法（一）

最新推荐文章于 2024-09-04 15:33:47 发布

_卷心菜_

最新推荐文章于 2024-09-04 15:33:47 发布

阅读量220

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Thumb_/article/details/110448845

版权

机器学习专栏收录该内容

29 篇文章 4 订阅

订阅专栏

梯度下降法（Gradient Descent）

不是一个机器学习算法（不能用于解决回归或分类问题）
是一种基于搜索的最优化方法
作用：最小化一个损失函数
梯度上升法：最大化一个效用函数

在机器学习领域，熟练掌握梯度法来求一个目标函数的最优值是非常重要的。
如图，寻找一个theta 使得损失函数J 最小。
在这里插入图片描述每取一个 theta 值都对应一个 J。
对于导数 dJ / d theta，在直线方程中，导数代表斜率；曲线方程中，导数代表切线斜率；在此图中，导数代表 theta 单位变化时，J相应的变化。
由图右半部分可知，若随着 theta 增大，J 会减小；theta 减小，J 会增大。因此，从某种意义上讲导数可以代表方向，随着 theta 增大，对应 J 增大的方向就可表示为 -n dJ / d theta，即图中蓝点右移，直到 -n dJ / d theta 为 0 。
在这里插入图片描述
对于多维函数，这个导数就是梯度。

同理，随着 theta 减小，对应 J 减小的方向为 -n dJ / d theta，即图中蓝点左移，直到 -n dJ / d theta 为 0 ，对应的损失函数 J 最小。

其中

n 称为学习率（learning rate）
n 的取值影响获得最优解的速度
n 取值不合适，甚至得不到最优解
n 是梯度下降法的一个超参数

但并不是所有函数都有唯一的极值点，如会遇到下图问题：

如果从右侧找一点，则会找到局部最优解，但不是我们要的全局最优解。

对于这个问题，我们的解决方案是：

多次运行，随机化初始点
梯度下降法的初始点也是一个超参数

对于线性回归法的损失函数具有唯一的最优解，线性回归的目标是使
在这里插入图片描述尽可能小。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

_卷心菜_ CSDN认证博客专家 CSDN认证企业博客

码龄4年

309: 原创

23万+: 周排名

134万+: 总排名

16万+: 访问

: 等级

3269: 积分

58: 粉丝

56: 获赞

15: 评论

308: 收藏

私信

关注

热门文章

分类专栏

最新评论

Topic26——11. 盛最多水的容器
CSDN-Ada助手: 邀请你参加算法技能树有奖评测征文：https://bbs.csdn.net/topics/606838471?utm_source=AI_activity_algorithm
有参有返回值方法
旧时代的遗物，: OK啊真棒的
sklearn 中的多项式回归和 Pipeline
_卷心菜_: 抱歉书写不规范导致误解这里的x12和x22表示的是 x1的平方和 x2的平方。
sklearn 中的多项式回归和 Pipeline
qq_42940173: array([[ 1., 1., 2., 1., 2., 4.], [ 1., 3., 4., 9., 12., 16.], [ 1., 5., 6., 25., 30., 36.], [ 1., 7., 8., 49., 56., 64.], [ 1., 9., 10., 81., 90., 100.]]) 将X第一列称为x1，第二列称为x2，则下面每一列分别为：1，x1，x2，x12，x1x2，x22这里的x12 有问题应该改为将X第一列称为x1，第二列称为x2，则下面每一列分别为：1，x1，x2，x11，x1x2，x22
break和continue语句
范德彪陕西分彪:

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。