牛顿法与拟牛顿法

最新推荐文章于 2025-03-27 09:02:53 发布

wolfrevoda

最新推荐文章于 2025-03-27 09:02:53 发布

阅读量1.8w

点赞数 17

分类专栏： machine-learning 文章标签：机器学习牛顿法最优化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/batuwuhanpei/article/details/51979831

版权

machine-learning 专栏收录该内容

23 篇文章

订阅专栏

牛顿法

求函数的根

牛顿法的最初提出是用来求解方程的根的。我们假设点 $x^*$ 为函数 $f(x)$ 的根，那么有 $f(x^*) = 0$ 。现在我们把函数 $f(x)$ 在点 $x_k$ 处一阶泰勒展开有：

f (x) = f (x k) + f' (x k) (x - x k)

$f(x) = f(x_k) + f'(x_k)(x-x_k)$ 那么假设点

xk+1 $x_{k+1}$ 为该方程的根，则有

f (x k + 1) = f (x k) + f' (x k) (x k + 1 - x k) = 0

$f(x_{k+1}) = f(x_k) + f'(x_k)(x_{k+1} - x_k) = 0$ 那么就可以得到

x k + 1 = x k - f ( x k ) f ' ( x k )

$x_{k+1} = x_k - \frac{f(x_k)}{f'(x_{k})}$ 这样我们就得到了一个递归方程，我们可以通过迭代的方式不断的让

x $x$ 趋近于

x∗ $x^*$ 从而求得方程

f(x) $f(x)$ 的解。该递归式同样可以通过下图的方式得到：
这里写图片描述

这里写图片描述

在该图中我们可以看到

xn+1 $x_{n+1}$ 是要比

xn $x_n$ 更接近于

x∗ $x^*$ ，而

xn+1 $x_{n+1}$ 利用三角形特征可以知道

xn+1=xn−f(xn)f′(xn) $x_{n+1} = x_n - \frac{f(x_n)}{f'(x_n)}$ 。其中，

f′(xn) $f'(x_n)$ 在三角形中表示点

(xn,f(xn)) $(x_n,f(x_n))$ 处切线的斜率。
牛顿法动图

牛顿法动图

最优化

对于最优化问题，其极值点处有一个特性就是在极值点处函数的一阶导数为0。因此我们可以在一阶导数处利用牛顿法通过迭代的方式来求得最优解，即相当于求一阶导数对应函数的根。
首先，我们对函数在 $x_k$ 点处进行二阶泰勒展开

f (x) = f (x k) + f' (x k) (x - x k) + 1 2 f'' (x k) (x - x k) 2 \Rightarrow

$f(x) = f(x_k) + f'(x_k)(x-x_k) + \frac12 f''(x_k)(x-x_k)^2 \Rightarrow$

f ( x ) - f ( x k ) x - x k = f' (x k) + f'' (x k) (x - x k)

$\frac{f(x) - f(x_k)}{x - x_k} = f'(x_k)+f''(x_k)(x-x_k)$ 因此，当

x→xk $x\rightarrow x_k$ 时，

f′(x)=f′(xk)+f′′(xk)(x−xk) $f'(x) = f'(x_k) + f''(x_k)(x-x_k)$ 。这里假设点

xk+1 $x_{k+1}$ 是一阶导数的根，那么就有

f' (x k + 1) = f' (x k) + f'' (x k) (x k + 1 - x k) = 0

$f'(x_{k+1}) = f'(x_k)+f''(x_k)(x_{k+1}-x_k) = 0$ 依据上式可以得到

x k + 1 = x k - f ' ( x k ) f '' ( x k )

$x_{k+1} = x_k - \frac{f'(x_{k})}{f''(x_k)}$ 这样我们就得到了一个不断更新

x $x$ 迭代求得最优解的方法。这个也很好理解，假设我们上面的第一张图的曲线表示的是函数

f(x) $f(x)$ 一阶导数的曲线，那么其二阶导数就是一阶导数对应函数在某点的斜率，也就是那条切线的斜率，那么该公式就和上面求根的公式本质是一样的。
我们这里讨论的都是在低维度的情形下，那么对于高维函数，其二阶导数就变为了一个海森矩阵，记为

H(x)=[δ2fδxiδxj] $H(x) = [\frac{\delta ^2f}{\delta x_i\delta x_j}]$ ，那么迭代公式就变为了

x k + 1 = x k - H - 1 k f' k

$x^{k+1} = x^k - H_k^{-1}f'_k$ 我们可以看到，当

Hk $H_k$ 为正定（

H−1k $H_k^{-1}$ 也为正定）的时候，可以保证牛顿法的搜索方向是向下搜索的。
牛顿法求最优值的步骤如下：
1. 随机选取起始点

x0 $x^0$ ；
2. 计算目标函数

f(x) $f(x)$ 在该点

xk $x^k$ 的一阶导数和海森矩阵；
3. 依据迭代公式

xk+1=xk−H−1kf′k $x^{k+1} = x^k - H_k^{-1}f'_k$ 更新

x $x$ 值
如果

E(f(xk+1)−f(xk))<ϵ $E(f(x_{k+1}) - f(x_k)) < \epsilon$ ，则收敛返回，否则继续步骤2,3直至收敛
我们可以看到，当我们的特征特别多的时候，求海森矩阵的逆的运算量是非常大且慢的，这对于在实际应用中是不可忍受的，因此我们想能否用一个矩阵来代替海森矩阵的逆呢，这就是拟牛顿法的基本思路。

拟牛顿法

因为我们要选择一个矩阵来代替海森矩阵的逆，那么我们首先要研究一下海森矩阵需要具有什么样的特征才能保证牛顿法成功的应用。通过上面的描述我们知道

f' (x k + 1) = f' (x k) + H k (x k + 1 - x k) \Rightarrow

$f'(x^{k+1}) = f'(x^k)+H_k(x^{k+1}-x^k) \Rightarrow$

H - 1 K (f' (x k + 1) - f' (x k)) = x k + 1 - x k

$H_K^{-1}(f'(x^{k+1})-f'(x_k)) =x^{k+1}-x^k$
上式我们称之为拟牛顿条件。
因此，对于我们所选择的替代矩阵

Gk $G_k$ ，需要满足两个条件：

拟牛顿条件，即 $G_k(f'(x^{k+1})-f'(x_k)) =x^{k+1}-x^k$ ；
要保证 $G_k$ 为正定矩阵，这是因为只有正定才能保证牛顿法的搜索方向是向下搜索的

假设 $y_k = f'(x^{k+1})-f'(x_k)$ ， $\delta_k = x^{k+1}-x^k$ ，因为每次迭代我们都需要更新替代矩阵 $G_k$ ，下面介绍一种常用的迭代算法DFP(Davidon-Fletcher-Powell)

DFP算法

DFP算法中选择 $G_{k+1}$ 的方法是在每一步迭代中在矩阵 $G_k$ 中加两项附加项构成 $G_{k+1}$ ，即

G k + 1 = G k + P k + Q k

$G_{k+1} = G_k +P_k + Q_k$ 我们有

G k + 1 y k = G k y k + P k y k + Q k y k

$G_{k+1}y_k = G_ky_k +P_ky_k + Q_ky_k$ ，我们可以令

Pkyk=δk,Qkyk=−Gkyk $P_ky_k = \delta_k, Q_ky_k = -G_ky_k$ ，这样就可以得到

Gk $G_k$ 的迭代公式

博客等级

码龄15年

51
原创

148
点赞

353
收藏

61
粉丝

关注

私信

热门文章

分类专栏

machine-learning 23篇
java 4篇
编程工具 3篇
python 3篇
algorithm 12篇
linux 5篇
c++ 16篇
c 1篇

最新评论

c++中map与unordered_map的区别
聆听--风雨: 你说的对
机器学习模型性能评估方法笔记
Snnnake: 感谢作者，总结的很到位
linux下构建虚拟环境（virtualenv ）安装tensorflow
三色堇520: (tensorflow)chenmengjie@chenmengjie-virtual-machine:~$ pip install --ignore-installed --upgrade https://storage.googleapis.com/tensorflow/linux/cpu/tensorflow-1.0.1-cp27-none-linux_x86_64.whl Downloading/unpacking https://storage.googleapis.com/tensorflow/linux/cpu/tensorflow-1.0.1-cp27-none-linux_x86_64.whl Cleaning up... Exception: Traceback (most recent call last): File "/home/chenmengjie/tensorflow/local/lib/python2.7/site-packages/pip/basecommand.py", line 122, in main status = self.run(options, args) File "/home/chenmengjie/tensorflow/local/lib/python2.7/site-packages/pip/commands/install.py", line 278, in run requirement_set.prepare_files(finder, force_root_egg_info=self.bundle, bundle=self.bundle) File "/home/chenmengjie/tensorflow/local/lib/python2.7/site-packages/pip/req.py", line 1197, in prepare_files do_download, File "/home/chenmengjie/tensorflow/local/lib/python2.7/site-packages/pip/req.py", line 1375, in unpack_url self.session, 请问这是什么原因
linux下构建虚拟环境（virtualenv ）安装tensorflow
三色堇520: 虚拟环境激活后，安装TensorFlow，具体操作按照你说的如下： (tensorflow)chenmengjie@chenmengjie-virtual-machine:~$ pip install --upgrade tensorflow Downloading/unpacking tensorflow Cannot fetch index base URL https://pypi.douban.com/simple/ Could not find any downloads that satisfy the requirement tensorflow Cleaning up... No distributions at all found for tensorflow Storing debug log for failure in /home/chenmengjie/.pip/pip.log (tensorflow)chenmengjie@chenmengjie-virtual-machine:~$ pip install --upgrade TF_PYTHON_URL Downloading/unpacking TF-PYTHON-URL Cannot fetch index base URL https://pypi.douban.com/simple/ Could not find any downloads that satisfy the requirement TF-PYTHON-URL Cleaning up... No distributions at all found for TF-PYTHON-URL Storing debug log for failure in /home/chenmengjie/.pip/pip.log
svm常用核函数
小思姓尹: 请问样本40W，特征50维，这个样本的数量算正常嘛？

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。