与梯度下降算法相比的先进算法

之前介绍的方法都是通过梯度下降来最小化代价函数,但是在第三周的《Advanced Optimization》中简单介绍了两种新的算法:
在这里插入图片描述

它们的优点在于:无需手动选择学习速率α,算法会自动选择,而通过自动选择得出的α会让收敛速度远远快于梯度下降。因此当面对一个很大(?)的机器学习问题时,往往会选择这些高级算法

梯度下降算法迭代次数较多的原因(虽然有点不理解为什么路线是锯齿状的):
在这里插入图片描述

简单地用CSDN了解了一下,BFGS算法称为拟牛顿法,那什么是牛顿法呢?可见:
文章1
基于数学水平较差,不是很能看明白推导过程,但大致的思想是:
[图片]

而牛顿法的公式是:
[图片]

[图片]

虽然这么看是看不出牛顿法公式中的二阶导数的,但是真有兴趣可以去看具体的公式推导,H(θ)是涉及到二阶导的。有了二阶导就会比仅有一阶导数更加精准,因此可以找到更精确的路径。

BFGS算法:
了解牛顿法后,就可以开始了解拟牛顿法—BFGS算法,然而事实上这个的原理更加困难,参考文章为文章2
大致的思想是:
在这里插入图片描述
何为Hessian矩阵?就是文章1中的H(θ)
在这里插入图片描述
当变量n的数量越多时,这个矩阵就会愈发复杂,而根据上面贴出的牛顿法的公式,是需要计算Hessian矩阵的逆矩阵的,而当Hessian矩阵很稠密时,计算量会变得巨大。因此这个时候就不适合用牛顿法,而要用拟牛顿法。拟牛顿法引入了相似矩阵(线代太烂了,我猜应该是跟相似对角矩阵有关,这样计算逆矩阵就会轻松的多),就会减少计算量。原理差不多就是如此,后面就是过程推导了完全看不懂。

BFGS都是只了解皮毛,L-BFGS就更不懂了,大概的意思是:
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值