最优化方法之牛顿法

最新推荐文章于 2024-01-04 15:03:54 发布

Taoist_Nie

最新推荐文章于 2024-01-04 15:03:54 发布

阅读量1.7k

点赞数 1

文章标签：牛顿法机器学习

本文链接：https://blog.csdn.net/qq_39494028/article/details/85763525

版权

最优化方法之牛顿法

最近在做期末总结复习这学期学过的模型算法，复习到逻辑回归的时候，看到西瓜书上用到的优化方法除了梯度下降法以外，还提到了牛顿法。于是我花了点时间看了一下牛顿法的相关实现，特此记录，以备遗忘。

牛顿法的简单推导

牛顿法可以理解为一种求零点的方法，也就是求方程的解。用几何的思维理解：可以想象在有一条曲线 f(x)，与 x 轴相交于一个点，我们称为曲线的根点记为 x* 。此时我们在曲线上任意找一个点 ( x0 , f(x0) ) 作它的切线记作 L0，L0与 x 轴的交点称为切线的根点记为 x1。如果我们在 x1 处作垂线交于曲线上一点，再在这个点上作它的切线记作 L1，L1与 x 轴上的交点记作 x2，接着重复上述动作，我们会发现 xi 越来越接近 x* 。那么我们用代数的方法来表示：

L0： $f(x_0)+f(x_0)'(x-x_0)$

令 $f(x_0)+f(x_0)'(x-x_0)$ = 0

解得： $x_1=x_0-\cfrac{f(x_0)}{f'(x_0)}$

L1： $f(x_1)+f(x_1)'(x-x_1)$

令 $f(x_1)+f(x_1)'(x-x_1)$ = 0

解得： $x_2=x_1-\cfrac{f(x_1)}{f'(x_1)}$

那么以此类推：

for {

$x_i=x_{i-1}-\cfrac{f(x_{(i-1)}}{f'(x_{(i-1)})}$ }

当迭代 n 次后我们会发现 xi 不断靠近 x* ，结果越来越收敛。这是最好的一种情况，其他情况下可能会出现不收敛，甚至来回震荡。由于我们是用于凸函数的优化，故不作讨论。

优化逻辑回归模型

我们要最小化逻辑回归的损失函数： $J(w)=\sum_{i=1}^{m}(-y_iw^Tx+ln(1+e^{w^Tx}))$

因为 $J (w)$ 是凸函数，因此最小化它的方法很容易想到是令导函数为0解方程。因此我们可以用牛顿法求解 $J (w)^{'}$ =0 ，解法如下：

在一元的情况下，令初始点为w0：

先将 $J (w) $ 按二阶泰勒公式展开：

$J(w)=J(w_0)+(w-w_0)J(w_0)'+\cfrac{1}{2!}(w-w_0)^2J(w_0)''$

令 $J (w)^{'} = 0 （对（ w - w 0 ）求导）$ ，则： $wi=w_{i-1}-\cfrac{J(w_{i-1})'}{J(w_{i-1})''}$ ，通过不断迭代逼近最优解。

在多元情况下，令初始点为wk：

$J (w)$ 的泰勒展开式表示为：

$J(w_1...w_N)$

$=J(w_{k_1}...w_{kN})+\sum_{i=1}^{N}(w-w_i)\cfrac{\alpha{J(w_k)}}{\alpha{wi}}+\cfrac{1} {2!}\sum_{i=1}^{N}\sum_{j=1}^{N}(w-w_i)(w-w_j)\cfrac{\alpha{J(w_k)}}{\alpha{w_i}\alpha{w_j}}$

用矩阵的形式表示：

$J(w)=J(w_k)+(w-w_k)\nabla_{w}{J(w_k)}+(w-w_k)^TH(w_k)(w-w_k)$

其中 $H(w_k)$ （Hessian矩阵）为：

$\begin{bmatrix} \cfrac{\alpha{J(w_k)}}{\alpha{w_1w_1}}&\cfrac{\alpha{J(w_k)}}{\alpha{w_1w_2}} \cdots & \cfrac{\alpha{J(w_k)}}{\alpha{w_1w_N}} \\ \vdots & \ddots & \vdots \\ \cfrac{\alpha{J(w_k)}}{\alpha{w_Nw_1}} & \cfrac{\alpha{J(w_k)}}{\alpha{w_Nw_2}}\cdots & \cfrac{\alpha{J(w_k)}}{\alpha{w_Nw_N}} \end{bmatrix}$

然后同样令 $J (w)^{'} = 0$ ，求解得：

$w_{t}=w_{t-1}-\cfrac{\alpha{J(w_{t-1})'}}{\alpha{J(w_{t-1})''}}$

不断迭代上式，以逼近最优解，来最小化损失函数。

Taoist_Nie

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
最优化方法之牛顿法

最优化方法之牛顿法最近在做期末总结复习这学期学过的模型算法，复习到逻辑回归的时候，看到西瓜书上用到的优化方法除了梯度下降法以外，还提到了牛顿法。于是我花了点时间看了一下牛顿法的相关实现，特此记录，以备遗忘。牛顿法的简单推导牛顿法可以理解为一种求零点的方法，也就是求方程的解。用几何的思维理解：可以想象在有一条曲线 f(x)，与 x 轴相交于一个点，我们称为曲线的根点记为 x* 。此时我们在曲线...
复制链接

扫一扫