logistic回归与牛顿法

最新推荐文章于 2023-04-11 08:00:00 发布

du_mengnan

最新推荐文章于 2023-04-11 08:00:00 发布

阅读量9.8k

点赞数 6

分类专栏：机器学习文章标签：牛顿法

本文链接：https://blog.csdn.net/u012526120/article/details/48897135

版权

本文对比了梯度下降法和牛顿法在logistic回归中的表现，指出梯度下降法因数据尺度问题导致迭代次数过多。通过引入牛顿法，可以在logistic回归中显著减少迭代次数，提高参数求解效率。实验结果显示，牛顿法只需500次迭代即可达到批量梯度下降法相近的分类效果。

摘要由CSDN通过智能技术生成

1. 梯度下降法的缺点

由于处理的数据有不同的量纲和量纲单位，导致不同维度的数据之间尺度差异很大，如下图（左）所示，目标函数的等高线是椭圆形的。这样在通过最小化目标函数寻找最优解的过程中，梯度下降法所走的路线是锯齿状的，需要经过的迭代次数过多，严重影响了算法的效率。
这里写图片描述
为了解决这个问题，可以对数据进行归一化，例如采用min-max标准化将输入数据范围统一到[0,1]之间：

x * = x - m i n m a x - m i n

$x^*=\frac{x-min}{max-min}$
处理后的结果如上图（右）所示，经过很少次数的迭代就可以达到目标函数的最低点，极大提高算法的执行效率。

2. 牛顿法

数据归一化是从数据预处理的角度解决梯度下降法迭代次数过多这个问题的，若从目标函数优化的角度去思考，可以用牛顿法替代梯度下降法，从而提高参数最优值的求解速度。
有n个变量的函数 $J(\theta)$ 的一阶导数为：

\partial J \partial θ = [\partial J \partial θ 1, \partial J \partial θ 2, . . ., \partial J \partial θ n]

$\frac{\partial J}{\partial \theta}=[\frac{\partial J}{\partial \theta_1},\frac{\partial J}{\partial \theta_2},...,\frac{\partial J}{\partial \theta_n}]$
二阶导数（也称为Hessian矩阵）为：