文档主要分为两个部分,第一部分是对牛顿、拟牛顿方法的介绍,第二部分介绍具体的拟牛顿数值方法。
1 非线性方程组解法——牛顿法
Newton法又称为Newton-Raphson法,是采用函数的Taylor级数的前面几项来寻找方程的根。Newton法是把非线性方程线性化的一种方法。对于单变量又称为切线法,对于多变量则是采用目标函数的Jocobi矩阵对非线性方程组的解进行迭代,是用超切平面趋近,拟牛顿法采用割线的思想,用近似矩阵趋近Jocobi矩阵,然后对非线性方程组的解进行迭代,是用超割平面去趋近。牛顿法为平方收敛,自矫正误差不会传递。但是求导过程较为复杂,并且赋值后的Jocobi矩阵可能会稀疏性,奇异性或者病态等问题,导致数值不稳定性。拟牛顿法的收敛速度介于直线收敛之间,速度会慢于牛顿法,但是稳定性很高。割线法有很多种,2点割线法,点割线法,点割线法(是方程的个数),其中点割线法的效率是最高的。拟牛顿法具有点割线法的效率,同时具备很高的稳定性。
对于给定的一个的非线性方程组
对应的Jocobi矩阵为
对于牛顿法,给定,然后进行迭代
令 ,则原式为
2 拟牛顿法数值方法的介绍
拟牛顿法的基本思路是不断用一个低秩矩阵对 A k 进行修正,低秩矩阵不同得到的方法也不同。拟牛顿法主要用来解决两类问题,一是个方程个未知数的系统,二是非约束函数的最小值问题。拟牛顿法解决这两类问题时主要的不同在于生成的近似导数矩阵不同,对于非线性问题,采用的是Jacobian矩阵,即目标函数的一阶导矩阵,对于非约束最小值问题,采用的是Hessian矩阵,即目标函数的二阶导矩阵。对于非约束最小值问题求解的拟牛顿法,其种类是很多的,并且随着机器学习等学科的兴起而不断的增加,但是这些方法之间的关系并不是十分清楚的[1]。而对于非线性方程求解的拟牛顿方程,主要采用的是Broyden方法(1965)[2],而对于非约束最小值问题,则采用Powell对称形式的Broyden方法[3],Davidon-Fletcher-Powell(DFP)[4,5]方法以及Broyden-Fletcher-Goldfarb-Shanno(BFGS)方法[6,7,8,9]。
2.1 各个方法的迭代表达式
1. Broyden方法是秩为1的算法[2]
这里表示的是目标函数的一阶导矩阵,即Jacobi矩阵,其中。方程(5)中要求线性系统的解,这个要求是比较难解的。为了克服这个困难,可以通过Sherman和Morrison的理论来解决[10]。该理论得出这样一个定理:
Theorem 1. 令 并假设是非奇异的,那么是非奇异的当且仅当.如果 ,那么
根据这一条定理,方程(5)可以写成不含求逆项的方程,或者在实际迭代过程中只需要一次求逆的迭代表达式。令,根据方程(5)的第二式以及方程(1),我们可以得到
其中
则有
因此可以得到改进的Broyden表达式
对于非约束最小值问题,采用的是Hessian矩阵,因此,以下代表的是目标函数的二阶导矩阵,即Hessian矩阵。
2. Powell对称形式的Broyden方法是一个秩为2的算法[3],是一个具有对称性的算法
3. Davidon-Fletcher-Powell(DFP)方法[4,5]
在对称性的基础上,还具有继承正定性,即当为正定的时候,也为正定的。
即如果令 ,可以得到改进的DFP方法
4. BFGS(Broyden-Fletcher-Goldfarb-Shanno)方法[6,7,8,9]
BFGS方法又称为互补DFP方法。BFGS方法的更新矩阵和DFP方法的更新矩阵满足关系式
其中
参考文献
[1] J. E. Dennis, Jr. and Jorge J. Moré. Quasi-Newton Methods, Motivation and Theory. SIAM Review, 19(1):46–89,
1977.
[2] C. G. Broyden. A class of methods for solving nonlinear simultaneous equations. Mathematics of Computation,
19(92):577–577, 1965.
[3] M.J.D. Powell. A New Algorithm for Unconstrained Optimization. In Nonlinear Programming, pages 31–65. Elsevier,
1970.
[4] William C. Davidon. VARIABLE METRIC METHOD FOR MINIMIZATION. SIAM Journal on Optimization,
1(1):1–17, 1959.
[5] R. Fletcher and M. J. D. Powell. A rapidly convergent descent method for minimization. The Computer Journal,
6(2):163–168, 1963.
[6] C. G. Broyden. The Convergence of a Class of Double-rank Minimization Algorithms 1. General Considerations.
IMA Journal of Applied Mathematics, 6(1):76–90, 1970.
[7] R. Fletcher. A new approach to variable metric algorithms. The Computer Journal, 13(3):317–322, 1970.
[8] Donald Goldfarb. A Family of Variable-Metric Methods Derived by Variational Means. Mathematics of Computation,
24(109):23, 1970.
[9] D. F. Shanno. Conditioning of Quasi-Newton Methods for Function Minimization. Mathematics of Computation,
24(111):10, 1970.
[10] Jack Sherman and Winifred J. Morrison. Adjustment of an inverse matrix corresponding to changes in the elements
of a given column or a given row of the original matrix. The Annals of Mathematical Statistics, 21(1):124–127, 1950.