吴恩达机器学习（六）梯度下降

最新推荐文章于 2021-07-30 00:22:58 发布

hosheaw

最新推荐文章于 2021-07-30 00:22:58 发布

阅读量366

点赞数

分类专栏： # 吴恩达ML

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37252651/article/details/107922890

版权

本文介绍了梯度下降算法在优化代价函数中的应用，强调了不同起点可能导致局部最优解而非全局最优解。学习率α决定了参数更新的速度，偏导数用于指导参数调整。在单参数实例中，分析了偏导数作用和学习率的影响。若学习率太小，过程缓慢；过大则可能错过最优解导致发散。当梯度接近0时，表明到达局部最优解。

摘要由CSDN通过智能技术生成

梯度下降算法可以用在更一般的问题上，比如计算minimize J(θ0…θn)，用以优化代价函数。
不断地改变θ0和θ1的值，直到代价函数J达到最小值。
在这里插入图片描述

梯度下降法的一大特点就是，不同位置出发，得到的可能是局部最优解，而非整体最优解。

在这里插入图片描述
repeat until convergence -> 重复执行，直到收敛

:=代表赋值，=代表真假判断
α称为学习率，控制以多大的幅度更新参数θj，即控制我们每次走一步步数的大小。
α越大，梯度下降越快。
会用到偏导数和导数的知识。
梯度下降中，θ0, θ1…θn都是同步更新的，不能将刚更新的值用来计算下一个参数。

单参数简单实例

假设我们想最小化的函数只有一个参

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
吴恩达机器学习（六）梯度下降

梯度下降算法可以用在更一般的问题上，比如计算minimize J(θ0…θn)。不断地改变θ0和θ1的值，直到代价函数J达到最小值。梯度下降法的一大特点就是，不同位置出发，得到的可能是局部最优解，而非整体最优解。:=代表赋值，=代表真假判断α称为学习率，即控制我们每次走一步步数的大小。α越大，梯度下降越快。梯度下降中，θ0,θ1…θn都是同步更新的，不能先更新某一个。...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。