与梯度下降算法相比的先进算法

④

已于 2022-08-15 11:35:58 修改

阅读量671

点赞数

分类专栏：吴恩达机器学习私人笔记文章标签：算法机器学习

于 2022-08-12 17:34:10 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44794961/article/details/126308004

版权

吴恩达机器学习私人笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

之前介绍的方法都是通过梯度下降来最小化代价函数，但是在第三周的《Advanced Optimization》中简单介绍了两种新的算法：
在这里插入图片描述

它们的优点在于：无需手动选择学习速率α，算法会自动选择，而通过自动选择得出的α会让收敛速度远远快于梯度下降。因此当面对一个很大（？）的机器学习问题时，往往会选择这些高级算法

梯度下降算法迭代次数较多的原因（虽然有点不理解为什么路线是锯齿状的）：
在这里插入图片描述

简单地用CSDN了解了一下，BFGS算法称为拟牛顿法，那什么是牛顿法呢？可见：
文章1
基于数学水平较差，不是很能看明白推导过程，但大致的思想是：
[图片]

而牛顿法的公式是：
[图片]

[图片]

虽然这么看是看不出牛顿法公式中的二阶导数的，但是真有兴趣可以去看具体的公式推导，H(θ)是涉及到二阶导的。有了二阶导就会比仅有一阶导数更加精准，因此可以找到更精确的路径。

BFGS算法：
了解牛顿法后，就可以开始了解拟牛顿法—BFGS算法，然而事实上这个的原理更加困难，参考文章为文章2
大致的思想是：
在这里插入图片描述
何为Hessian矩阵？就是文章1中的H(θ)

当变量n的数量越多时，这个矩阵就会愈发复杂，而根据上面贴出的牛顿法的公式，是需要计算Hessian矩阵的逆矩阵的，而当Hessian矩阵很稠密时，计算量会变得巨大。因此这个时候就不适合用牛顿法，而要用拟牛顿法。拟牛顿法引入了相似矩阵（线代太烂了，我猜应该是跟相似对角矩阵有关，这样计算逆矩阵就会轻松的多），就会减少计算量。原理差不多就是如此，后面就是过程推导了完全看不懂。

BFGS都是只了解皮毛，L-BFGS就更不懂了，大概的意思是：
在这里插入图片描述

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
与梯度下降算法相比的先进算法

喵喵喵
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。