拟牛顿法

最新推荐文章于 2024-01-04 15:03:54 发布

智元说车

最新推荐文章于 2024-01-04 15:03:54 发布

阅读量740

点赞数

分类专栏：机器学习文章标签：机器学习算法优化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012771351/article/details/53172961

版权

机器学习专栏收录该内容

35 篇文章 4 订阅

订阅专栏

注：本文中所有公式和思路来自于邹博先生的《机器学习升级版》，我只是为了加深记忆和理解写的本文。

上一篇文章中，介绍了沿着梯度下降的方法，其实我们不一定非要沿着梯度下降的。

我们首先做个思考，我们都知道二阶导数反映了函数的凸凹性，二阶导数反映了一阶导数变化的大小，那么在搜索中我们可以考虑使用二阶导来进行修正：

我们可以将f(x)在xk处Taylor展开：

扔掉高阶导信息：

最终的得到迭代公式：

这就是牛顿法。

牛顿法总结：

(1): 经典牛顿法虽然具有二次收敛性，但是要求初始点尽量接近极小值点，否则可能不会收敛。

(2): 计算过程中需要计算目标函数的二阶导数的逆，时间复杂度高。

(3): 目标函数的Hessian矩阵无法确保正定，会导致算法产生的方向不能保证是f(x)的下降方向。

既然求Hessian矩阵的逆影响算法效率，方向上也可能出问题，因此可以用近似的矩阵代替hessian矩阵，接下来就介绍两种拟牛顿方法：DFP、BFGS

DFP

记函数f(θ)的梯度为g(θ)，二阶导数为H(θ)，那么在θi做Tarlor展开：

上边是Tarlor展开后的推导，其中第三行是做了对θ求导的操作，第四行我们将θ取θi-1，倒第二行我们做了简单的符号定义。

其中Ci是个Hessian矩阵，我们使用简单的向量来替换：

进一步推导代换：

接下来我们进行系数对比来解：

最终我们可以求出Ci：

当然了，我们可以通过交换参数g和θ，的到另外一个公式，DFP的迭代公式是：

交换参数：

BFGS

我们DFP中求的Ci其实是Hessian的逆矩阵，而BFGS则是直接求了Hissian矩阵。

首先先介绍一个公式Sherman-Morrison公式：若A是n阶可逆矩阵，u、v为n维列向量，若≠-1，则：

那么根据上边我们交换参数g和θ得到的公式：

使用两次Sherman-Morrison公式即可得到：

这个公式我们直接拿来写代码就好了。

L-BFGS

BFGS需要存储n*n的方阵Ck用来近似Hessain矩阵的逆矩阵，而L-BFGS仅需存储m个：

用于近似Ck即可。

L-BFGS的空间复杂度维O(mn)，若将m看作常数，那么空间复杂度就是线性的，特别适合变量非常多的优化问题中。

到此所有的下降算法都讲完了，其中SGD很重要，是和在线学习，拟牛顿可以给出更好的下降方向。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
拟牛顿法

注：本文中所有公式和思路来自于邹博先生的《机器学习升级版》，我只是为了加深记忆和理解写的本文。上一篇文章中，介绍了沿着梯度下降的方法，其实我们不一定非要沿着梯度下降的。我们首先做个思考，我们都知道二阶导数反映了函数的凸凹性，二阶导数反映了一阶导数变化的大小，那么在搜索中我们可以考虑使用二阶导来进行修正：我们可以将f(x)在xk处Taylor展开：扔掉
复制链接

扫一扫

专栏目录

智元说车 CSDN认证博客专家 CSDN认证企业博客

码龄11年

34: 原创

24万+: 周排名

156万+: 总排名

12万+: 访问

: 等级

1647: 积分

64: 粉丝

67: 获赞

7: 评论

118: 收藏

私信

关注

热门文章

分类专栏

机器学习 35篇
linux 2篇
deep learning 1篇

最新评论

HMM之前向后向算法
weixin_46083434: 你好，非常感谢你的讲解让我可以把前向算法和后向算法结合起来理解，不过还有两个问题不是很明白，1. 单个状态的概率那个公式，分母P(o|lamda) 换成alphat(i)*betat(i)再对所有i（状态）求和，是因为生成观测序列o的总概率是t时刻下每个i（状态）可能的概率之和吗？ 2. 最后那个联合概率转换到最终结果不太明白，请问可以请教一下再具体一点的步骤吗？谢谢
LDA-隐狄利克雷分布-主题模型
leilei9406: 想请问下如果做短文拼接可以有哪些方法，我正在做一个短文本的LDA结果不是很好，可以请教下您吗？
变分算法
qq_36711371: 请问一下，P（x）和q（x）的距离公式中，α=1的时候，公式为什么会退化为KL(p||q)，α=1时，分母为0.
HMM之前向后向算法
Chester_ieee: 前后向概率的公式，i和t好像是写反了。
聚类之层次聚类与密度聚类
落入凡间的奥特曼: 你好，请问这个机器学习升级版是课程吗?

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。