Hessian矩阵与牛顿法_矩阵迭代收敛条件 hessian

2401_87361386

于 2024-09-22 11:08:34 发布

阅读量398

点赞数 4

文章标签：矩阵机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_87361386/article/details/142433532

版权

1. 求方程的根；

2. 求解最优化方法；

一. 为什么要用牛顿法求方程的根？

问题很多，牛顿法是什么？目前还没有讲清楚，没关系，先直观理解为 牛顿法是一种迭代求解方法（Newton童鞋定义的方法**）**。

假设 f(x) = 0 为待求解方程，利用传统方法求解，牛顿法求解方程的公式：

f(x0+Δx) = f(x0) + f′(x0) Δx

即 f(x) = f(x0) + f′(x0) (x-x0)

公式可能大家会比较熟悉，一阶泰勒展式，f′(a) 表示 f(x) 在 x0 点的斜率（这个很好理解），当X方向增量（Δx）比较小时，Y方向增量（Δy）可以近似表示为斜率（导数）*X方向增量（f′(x0) Δx），令 f(x) = 0，我们能够得到迭代公式：

x = x0 - f(x0) / f′(x0) => xn+1 = xn - f(xn) / f′(n)

通过逐次迭代，牛顿法将逐步逼近最优值，也就是方程的解。

二. 扩展到最优化问题

这里的最优化是指非线性最优化，解非线性最优化的方法有很多，比如梯度下降法、共轭梯度法、变尺度法和步长加速法等，这里我们只讲 牛顿法。

针对上面问题进行扩展：

解决 f(x) = 0 的问题，我们用了一阶泰勒展开：

f(x) = f(x0) + f’(x0)*(x-x0) + o( (x-x0)^2 )

去掉末位高阶展开项，代入x = x0+Δx，得到：

f(x) = f(x0+Δx) = f(x0) + f′(x0) Δx

那么要解决 f′(x) = 0 的问题，我们就需要二阶泰勒展开：

f(x) = f(x0) + f’(x0)*(x-x0) + 0.5*f’'(x0)*(x-x0)^2 + o( (x-x0)^3 )

去掉末位高阶展开项，代入x = x0+Δx，得到：

f(x) = f(x0+Δx) = f(x0) + f′(x0)Δx + 0.5 * f′′(x0) (Δx)^2

求导计算： f′(x) = f’(x0+Δx) = 0，得到：

[ f(x0) + f′(x0)(x−x0) + 0.5 f′′(x0)(x−x0)^2 ]′ = 0

整理：

f′(x0) + f′′(x0)(x−x0) = 0

x = x0 − f′(x0) / f′′(x0) => xn+1 = xn - f’(xn) / f’′(xn)

牛顿法 一图总结为：

三. 牛顿法与 Hessian矩阵的关系

以上牛顿法的推导是针对 单变量问题，对于多变量的情况，牛顿法 演变为：

与上面的单变量表示方式类似，需要用到变量的 一阶导数和二阶导数。

其中 J 定义为雅克比矩阵，对应一阶偏导数。

H 为 Hessian矩阵，对应二阶偏导数。

网上也能搜到类似的公式表达，也列出来：

牛顿法在多变量问题上仍然适用迭代求解，但Hessian矩阵的引入增加了复杂性，特别是当：

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。