这两种方法在优化中使用到了目标函数的二阶导数信息,比一阶导数具有更快的收敛速度。
牛顿法:
目标为如下:
将其展开为泰勒二阶形式,有如下近似相等:
对两边同时求导,有:
令导数为0,牛顿方向即为如下:
Pk为向量。
重复此过程(因为上面是近似相等),直到梯度信息小于阈值即可为收敛:
其中:
当 H 为正定矩阵时,牛顿法才有效(因为在 k 点附近函数为下凸的,详见统计学习方法附录B.14);
当 |H| = 0 时,无法计算逆矩阵,此时无意义;
当 H 负定时,在 k 点附近函数为上凸,找到的是极大值;
BFGS 拟牛顿法:
在上面的式子中,有:
考虑构造矩阵B来逼近海森矩阵H,使得:
令 P 为,
令 Q 为,
则有,