梯度下降算法

最新推荐文章于 2023-03-08 14:40:22 发布

恪心

最新推荐文章于 2023-03-08 14:40:22 发布

阅读量255

点赞数

分类专栏：机器学习知识总结

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38009970/article/details/87915508

版权

机器学习知识总结专栏收录该内容

13 篇文章 0 订阅

订阅专栏

梯度下降是一个用来求函数最小值的算法，我们将使用梯度下降算法来求出代价函数 ${J(\theta_1, \theta_2)}$ 的最小值。

梯度下降背后的思想是：

开始时我们随机选择一个参数的组合 ${(\theta_1, \theta_2, ..., \theta_n)}$ ，计算代价函数，在原来参数组合的基础上增加/减少一个数后，计算代价函数。我们持续这么做直到到到一个局部最小值 (lcalminimum），因为我们并没有尝试完所有的参数组合，所以不能确定我们得到的局部最小值是否便是全局最小值（global minimum），选择不同的初始参数组合，可能会找到不同的局部最小值。

梯度下降算法公式：
在这里插入图片描述
其中 ${\alpha}$ 是学习率，它决定了每次下降所减去的值。
对 J 的梯度决定了下降的方向。
上面的公式是对单个 ${\theta}$ 操作，接下来的 ${\theta}$ 代指整个 ${\theta}$ 矩阵 ( ${\theta_1, \theta_2, ..., \theta_n}$ )

算法：

首先对所有 ${\theta}$ 值 ( ${\theta_1, \theta_2, ..., \theta_n}$ ) 初始化，计算 ${J(\theta)}$
${\theta: = \theta - \alpha\frac{\partial}{\partial \theta}J(\theta)}$ , 至此求得第二次的 ${\theta}$ 值
之后继续进行下一次的迭代，求得 ${\theta}$ 值，计算 ${J(\theta)}$ …
直到求得最小值，或者达到指定的迭代次数。

在这里插入图片描述

因为成本函数 ${J(\theta)}$ 是凸函数(详情点击)。所以每次迭代后， ${J(\theta)}$ 的值都会降低， ${J(\theta)}$ 最终会减为 0，达到极小值点。无论上一次迭代的 ${\theta}$ 为何值， ${\theta}$ 都不再改变。

我对梯度下降算法的理解就是这些，如果有什么问题，欢迎留言，我会在看到的第一时间回复。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。