【机器学习】拟牛顿下降优化方法-BFGS

最新推荐文章于 2023-01-09 08:19:12 发布

artzers

最新推荐文章于 2023-01-09 08:19:12 发布

阅读量507

点赞数

分类专栏：模式识别与机器学习文章标签：机器学习优化

本文链接：https://blog.csdn.net/lpsl1882/article/details/53048312

版权

模式识别与机器学习专栏收录该内容

46 篇文章 6 订阅

订阅专栏

　　牛顿法是求解最优化，理论上最好最精确的方法，公式为： $x_{k+1}=x_k-\frac{f'(x_k)}{f''(x_k)}$ ，原理是求解导数为0的情况。如果 $x_k$ 是一个高维数据，且函数 $f(x)$ 非常复杂，那么求解 $1/f''(x)$ 就是很麻烦的过程。拟牛顿法的思路是，在牛顿法的基础上，对 $1/f''(x)$ 做个近似估计就行了，不需要精确计算。这样虽然结果会有些差异，但是速度上来了。
　　拟牛顿法 基于原函数 $f(x_{k+1})$ 关于 $f(x_{k})$ 的二阶泰勒展开。设

f (x k) = f (x k + 1) + f' (x k + 1) (x k - x k + 1) + 1 2 (x k - x k + 1) T f ″ (x k + 1) (x k - x k + 1) + o (x k + 1)

$f(x_{k})=f(x_{k+1})+f'(x_{k+1})(x_{k}-x_{k+1})+\frac{1}{2}(x_{k}-x_{k+1})^Tf''(x_{k+1})(x_{k}-x_{k+1})+o(x_{k+1})$ 令

f″(xk+1)=Bk+1 $f''(x_{k+1})=B_{k+1}$ ，去掉余项

o(xk+1) $o(x_{k+1})$ ，对

xk $x_{k}$ 求导有

f′(xk)=f′(xk+1)+Bk+1(xk−xk+1) $f'(x_{k})=f'(x_{k+1})+B_{k+1}(x_k-x_{k+1})$ ，解出

B k + 1 = f ' ( x k ) - f ' ( x k + 1 ) x k - x k + 1 = f ' ( x k + 1 ) - f ' ( x k ) x k + 1 - x k x k + 2 = x k + 1 - λ f' (x k + 1) / B k + 1

$B_{k+1}=\frac{f'(x_k)-f'(x_{k+1})}{x_k-x_{k+1}}=\frac{f'(x_{k+1})-f'(x_{k})}{x_{k+1}-x_{k}} \\ x_{k+2}= x_{k+1} - \lambda f'(x_{k+1})/B_{k+1}$ 由于包含要求解的

xk+1 $x_{k+1}$ ，我们只能试着取一个值，随机取值风险很大，上述方程只能作为拟牛顿方程成立的一个必要条件。。
　　 BFGS算法是一种迭代拟牛顿法，在满足上述必要条件的情况，保证了计算过程中的稳定，具体证明太难了。设

Bk+1=Bk+δB $B_{k+1}=B_k+\delta B$ 。数学家用了一个很技巧性很偶然的方法，令

δB=αuuT+βvvT $\delta B = \alpha uu^T+\beta vv^T$ ，则

B k + 1 = B k + α u u T + β v v T B k + 1 (x k + 1 - x k) = f' (x k + 1) - f' (x k) = B k (x k + 1 - x k) + [α u T (x k + 1 - x k)] u + [β v T (x k + 1 - x k)] v

$B_{k+1}=B_k+\alpha uu^T+\beta vv^T \\ B_{k+1}(x_{k+1}-x_k)=f'(x_{k+1})-f'(x_{k})=B_k(x_{k+1}-x_k)+[\alpha u^T(x_{k+1}-x_k)]u+[\beta v^T(x_{k+1}-x_k)]v$ 令

αuT(xk+1−xk)=1 $\alpha u^T(x_{k+1}-x_k)=1$ ，

βvT(xk+1−xk)=−1 $\beta v^T(x_{k+1}-x_k)=-1$ ，

u=f′(xk+1)−f′(xk) $u=f'(x_{k+1})-f'(x_{k})$ ，

v=Bk(xk+1−xk) $v=B_k(x_{k+1}-x_k)$ ，刚好恒等式成立。于是有

α = 1 [ f ' ( x k + 1 ) - f ' ( x k ) ] T ( x k + 1 - x k ) β = - 1 [ B k ( x k + 1 - x k ) ] T ( x k + 1 - x k ) = - 1 ( x k + 1 - x k ) T B k ( x k + 1 - x k )

$\alpha = \frac{1}{[f'(x_{k+1})-f'(x_{k})]^T(x_{k+1}-x_k)} \\ \beta=\frac{-1}{[B_k(x_{k+1}-x_k)]^T(x_{k+1}-x_k)}=\frac{-1}{(x_{k+1}-x_k)^TB_k(x_{k+1}-x_k)}$ 其中

Bk=BTk $B_k=B_k^T$ ，原理是我们近似认为B是二阶导，当原函数是一元函数时，B是常量，转置就是本身；当原函数是多元函数时，B近似海森矩阵，表示为

⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial 2 f \partial x 2 1 \partial 2 f \partial x 2 \partial x 1 . . . \partial 2 f \partial x 1 \partial x 2 \partial 2 f \partial x 2 2 . . . . . . . . . . . . ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\left[ \begin{matrix} \frac{\partial^2f}{\partial x_1^2} & \frac{\partial^2f}{\partial x_1\partial x_2} & ... \\ \frac{\partial^2f}{\partial x_2\partial x_1} & \frac{\partial^2f}{\partial x_2^2} & ... \\ ... & ... & ... \end{matrix} \right]$ 显然B可以认为是一个对称矩阵。
　　获得上述式子后，令

sk=xk+1−xk,yk=f′(xk+1)−f′(xk $s_k=x_{k+1}-x_k, y_k=f'(x_{k+1})-f'(x_{k}$ 我们写得

B k + 1 = B k + s k s T k y T k s k - B k s k s T k B k s T k B K s k

$B_{k+1}=\\B_k+\frac{s_ks_k^T}{y_k^Ts_k} -\frac{B_ks_ks_k^TB_k}{s_k^TB_Ks_k}$ 值得注意的是，

Bk+1 $B_{k+1}$ 的表达式还是包含未知的

xk+1 $x_{k+1}$ 。定义步长参数

λk $\lambda_k$ ，遍历计算

f(xk+λkdk)，dk=−f′(xk)/Bk $f(x_k+\lambda_kd_k)，d_k=-f'(x_k)/B_k$ ，取其中函数值最小时的

λk $\lambda_k$ ，即求解

λk=argminf(xk+λdk) $\lambda_k=argmin f(x_k+\lambda d_k)$ ，近似得到

sk=λk(−f′(xk)/Bk) $s_k=\lambda_k(-f'(x_k)/B_k)$ ，然后代入

Bk+1 $B_{k+1}$ 表达式即可。当然

λk $\lambda_k$ 还有一些设置方法。我们用上述方法预先取的值，一般都受到BFGS本身的约束而不会太离谱。

　　BFGS方法步骤如下：
　　1、给定初值 $x_0$ ，收敛阈值 $\eta$ ，初始二阶导 $B_0=I$ ， $k=0$
　　2、计算得到 $d_k=f'(x_k)/B_k$ ，一般 $B_k$ 是可以求逆的
　　3、解 $\lambda_k=argmin f(x_k+\lambda d_k)$ ，得到 $x_{k+1}=x_k-\lambda_k d_k$
　　4、如果 $|f'(x_{k+1})|<\eta$ ，终止运行
　　5、计算 $y_k=f'(x_{k+1}-f'(x_k)),s_k=-\lambda_k d_k$ ，代入 $B_{k+1}$ 求解方程，求取 $B_{k+1}$
　　6、k=k+1，从步骤1开始。

artzers

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】拟牛顿下降优化方法-BFGS

牛顿法是求解最优化，理论上最好最精确的方法，公式为：xk+1=xk−f′(xk)f″(xk)x_{k+1}=x_k-\frac{f'(x_k)}{f''(x_k)}，原理是求解导数为0的情况。如果xkx_k是一个高维数据，且函数f(x)f(x)非常复杂，那么求解1/f″(x)1/f''(x)就是很麻烦的过程。拟牛顿法的思路是，在牛顿法的基础上，对1/f″(x)1/f''(x)做个近似估计就行了，不需
复制链接

扫一扫

专栏目录