【机器学习】求解逻辑回归参数（梯度上升算法和牛顿法）

最新推荐文章于 2024-07-03 13:21:32 发布

Day-yong

最新推荐文章于 2024-07-03 13:21:32 发布

阅读量3.2k

点赞数 3

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/daycym/article/details/80472015

版权

机器学习专栏收录该内容

50 篇文章 47 订阅

订阅专栏

回顾

这篇博客【链接】我们简单介绍了逻辑回归模型，留下了一个问题：怎么求解使 $J(\theta)$ 最大的 $\theta$ 值呢？

J (θ) = \sum i = 1 m (y (i) l o g h θ (x (i)) + (1 - y (i)) l o g (1 - h θ (x (i))))

$J(\theta) = \sum_{i=1}^{m} (y^{(i)}logh_\theta(x^{(i)})+(1-y^{(i)})log(1-h_\theta(x^{(i)})))$

前面我们提到了用梯度上升法和牛顿法。那么什么是梯度上升法和牛顿法呢？

梯度上升算法

由于 $J(\theta)$ 过于复杂，我们从一个简单的函数求极大值说起。
一元二次函数

f (x) = - x 2 + 4 x

$f(x) = -x^2 + 4x$
图像如下：
这里写图片描述

根据高中所学知识:
1. 求极值，先求函数的导数

f' (x) = - 2 x + 4

$f'(x) = -2x + 4$
2. 令导数为0，可求出

x=2 x = 2 $x = 2$ 即取得函数

f(x) f ( x ) $f(x)$ 的极大值。极大值等于

f(2)=4 f ( 2 ) = 4 $f(2) = 4$

但是真实环境中的函数不会像上面这么简单，就算求出了函数的导数，也很难精确计算出函数的极值。此时我们就可以用迭代的方法来做。就像爬坡一样，一点一点逼近极值。这种寻找最佳拟合参数的方法，就是最优化算法。爬坡这个动作用数学公式表达即为：

x i + 1 = x i + α \partial f ( x i ) \partial x i

$x_{i+1} = x_i + \alpha\dfrac{\partial f(x_i)}{\partial x_i}$
其中，

α α $\alpha$ 为步长，也就是学习速率，控制更新的幅度。效果如下图：
这里写图片描述

比如从(0,0)开始，迭代路径就是1->2->3->4->…->n，直到求出的x为函数极大值的近似值，停止迭代。
这一过程，就是梯度上升算法。那么同理， $J(\theta)$ 这个函数的极值，也可以这么求解。公式可以写为：

θ j : = θ j + α \partial J ( θ ) \partial θ j

$\theta_j : = \theta_j + \alpha \dfrac{\partial J(\theta)}{\partial \theta_j}$

那么，我们现在只要求出 $J(\theta)$ 的偏导，就可以利用梯度上升算法求解 $J(\theta)$ 的极大值了。

J (θ) = \sum i = 1 m {y (i) l o g h θ (x (i)) + (1 - y (i)) l o g (1 - h θ (x (i)))}

$J(\theta) = \sum_{i=1}^{m} \{y^{(i)}logh_\theta(x^{(i)})+(1-y^{(i)})log(1-h_\theta(x^{(i)}))\}$

h θ (x) = g (θ T x) = 1 1 + e - θ T x

$h_\theta(x)=g(\theta^Tx) = \dfrac{1}{1+e^{-\theta^Tx}}$
令：

g (z) = 1 1 + e - z

$g(z) = \dfrac{1}{1+e^{-z}}$
求导：

g' (z) = e - z ( 1 + e - z ) 2 = 1 1 + e - z * e - z 1 + e - z = 1 1 + e - z * (1 - 1 1 + e - z) = g (z) * (1 - g (z))

$g’(z) = \dfrac{e^{-z}}{(1+e^{-z})^2}=\dfrac{1}{1+e^{-z}}*\dfrac{e^{-z}}{1+e^{-z}} =\dfrac{1}{1+e^{-z}}*(1 - \dfrac{1}{1+e^{-z}}) = g(z)*(1-g(z))$
可得：

g' (θ T x) = g (θ T x) * (1 - g (θ T x))

$g’(\theta^Tx) =g(\theta^Tx)*(1-g(\theta^Tx))$

求 $J(\theta)的偏导$

\partial J ( θ ) \partial θ j = \sum i = 1 m (y ( i ) h θ ( x ( i ) ) - 1 - y ( i ) 1 - h θ ( x ( i ) )) * \partial h θ ( x ( i ) ) \partial θ j

$\dfrac{\partial J(\theta)}{\partial \theta_j} = \sum^{m}_{i=1} (\dfrac{y^{(i)}}{h_\theta(x^{(i)})}-\dfrac{1-y^{(i)}}{1-h_\theta(x^{(i)})})*\dfrac{\partial h_\theta(x^{(i)})}{\partial \theta_j}$

= \sum i = 1 m (y ( i ) g ( θ T x ( i ) ) - 1 - y ( i ) 1 - g ( θ T x ( i ) )) * \partial g ( θ T x ( i ) ) \partial θ j

$= \sum^{m}_{i=1} (\dfrac{y^{(i)}}{g(\theta^Tx^{(i)})}-\dfrac{1-y^{(i)}}{1-g(\theta^Tx^{(i)})})*\dfrac{\partial g(\theta^Tx^{(i)})}{\partial \theta_j}$

= \sum i = 1 m (y ( i ) g ( θ T x ( i ) ) - 1 - y ( i ) 1 - g ( θ T x ( i ) )) * g (θ T x (i)) * (1 - g (θ T x (i))) * \partial θ T x ( i ) \partial θ j

$= \sum^{m}_{i=1} (\dfrac{y^{(i)}}{g(\theta^Tx^{(i)})}-\dfrac{1-y^{(i)}}{1-g(\theta^Tx^{(i)})})*g(\theta^Tx^{(i)})*(1-g(\theta^Tx^{(i)}))*\dfrac{\partial \theta^Tx^{(i)}}{\partial \theta_j}$
其中：

\partial θ T x ( i ) \partial θ j = \partial ( θ 1 x ( i ) 1 + θ 2 x ( i ) 2 + θ 3 x ( i ) 3 + . . . + θ n x ( i ) n ) \partial θ j = x (i) j

$\dfrac{\partial \theta^Tx^{(i)}}{\partial \theta_j} = \dfrac {\partial(\theta_1x^{(i)}_1+\theta_2x^{(i)}_2+\theta_3x^{(i)}_3+...+\theta_nx^{(i)}_n)}{\partial \theta_j} = x_j^{(i)}$

上 式 = \sum i = 1 m {y (i) (1 - g (θ T x (i))) - (1 - y (i)) (g (θ T x (i))} * x (i) j = \sum i = 1 m (y (i) - g (θ T x (i))) * x (i) j

$上式=\sum_{i=1}^{m}\{y^{(i)}(1-g(\theta^Tx^{(i)}))-(1-y^{(i)})(g(\theta^Tx^{(i)})\}*x_j^{(i)}=\sum_{i=1}^{m}(y^{(i)} - g(\theta^Tx^{(i)}))*x_j^{(i)}$

综上：

θ j : = θ j + α \sum i = 1 m (y (i) - h θ (x (i))) * x (i) j

$\theta_j : = \theta_j + \alpha \sum_{i=1}^{m}(y^{(i)} - h_\theta(x^{(i)}))*x_j^{(i)}$

θ j : = θ j + α (y (i) - h θ (x (i))) * x (i) j

$\theta_j : = \theta_j + \alpha (y^{(i)} - h_\theta(x^{(i)}))*x_j^{(i)}$

牛顿法

同样，我们先来看个简单的例子。求函数值为0时的x的值。
用牛顿法迭代公式：

x n + 1 = x n - f ( x n ) f ' ( x n ) x n + 2 = x n + 1 - f ( x n + 1 ) f ' ( x n + 1 )

$\begin{equation*} x_{n+1} = x_{n} - \frac{f(x_{n})}{f’(x_{n})} \\ x_{n+2} = x_{n+1} - \frac{f(x_{n+1})}{f’(x_{n+1})} \\ \end{equation*}$

这里写图片描述

这个迭代公式的意思就是：在 $x = x_1$ 时，求得 $(x_1,f(x_1))$ 的切线与x轴的交点为 $x_2$ ，再求 $(x_2,f(x_2))$ 的切线与x轴的交点 $x_3$ ，依次迭代，直到找到满足要求的点。

然而，对于 $J(\theta)$ 我们需要求得一阶导数为0的点，那么牛顿法迭代公式可以更新为：

x n + 1 = x n - J ' ( x n ) J '' ( x n ) x n + 2 = x n + 1 - J ' ( x n + 1 ) J '' ( x n + 1 )

$\begin{equation*} x_{n+1} = x_{n} - \frac{J'(x_{n})}{J''(x_{n})} \\ x_{n+2} = x_{n+1} - \frac{J'(x_{n+1})}{J''(x_{n+1})} \\ \end{equation*}$

拓展

在多元的情况下， $J''(x_{n})=H_{\ell(\hat{\theta})}$ 海塞矩阵

H ℓ (θ^) = ⎡ ⎣ ⎢ ⎢ ⎢ \partial 2 J \partial θ 1 \partial θ 1 \partial 2 J \partial θ 2 \partial θ 1 \partial 2 J \partial θ 1 \partial θ 2 \partial 2 J \partial θ 2 \partial θ 2 ⎤ ⎦ ⎥ ⎥ ⎥

三阶海塞矩阵形式为：

H ℓ (θ^) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial 2 J \partial θ 1 \partial θ 1 \partial 2 J \partial θ 2 \partial θ 1 \partial 2 J \partial θ 3 \partial θ 1 \partial 2 J \partial θ 1 \partial θ 2 \partial 2 J \partial θ 2 \partial θ 2 \partial 2 J \partial θ 3 \partial θ 2 \partial 2 J \partial θ 1 \partial θ 3 \partial 2 J \partial θ 2 \partial θ 3 \partial 2 J \partial θ 3 \partial θ 3 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\begin{equation*} H_{\ell(\hat{\theta})} = \begin{bmatrix} \begin{split} \frac{\partial^{2}{J}}{\partial{\theta_{1}}\partial{\theta_{1}}} & \frac{\partial^{2}{J}}{\partial{\theta_{1}}\partial{\theta_{2}}} & \frac{\partial^{2}{J}}{\partial{\theta_{1}}\partial{\theta_{3}}} \\ \frac{\partial^{2}{J}}{\partial{\theta_{2}}\partial{\theta_{1}}} & \frac{\partial^{2}{J}}{\partial{\theta_{2}}\partial{\theta_{2}}} & \frac{\partial^{2}{J}}{\partial{\theta_{2}}\partial{\theta_{3}}}\\ \frac{\partial^{2}{J}}{\partial{\theta_{3}}\partial{\theta_{1}}} & \frac{\partial^{2}{J}}{\partial{\theta_{3}}\partial{\theta_{2}}}& \frac{\partial^{2}{J}}{\partial{\theta_{3}}\partial{\theta_{3}}}\\ \end{split}\end{bmatrix} \end{equation*}$

H ℓ (θ^) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \sum i = 1 n h θ (x i) (1 - h θ (x i)) x i, 1 x i, 1, \sum i = 1 n h θ (x i) (1 - h θ (x i)) x i, 2 x i, 1, \sum i = 1 n h θ (x i) (1 - h θ (x i)) x i, 1, \sum i = 1 n h θ (x i) (1 - h θ (x i)) x i, 1 x i, 2, \sum i = 1 n h θ (x i) (1 - h θ (x i)) x i, 2 x i, 2, \sum i = 1 n h θ (x i) (1 - h θ (x i)) x i, 2, \sum i = 1 n h θ (x i) (1 - h θ (x i)) x i, 1 \sum i = 1 n h θ (x i) (1 - h θ (x i)) x i, 2, \sum i = 1 n h θ (x i) (1 - h θ (x i)) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ h θ (x i) = 1 1 + e - z z = θ 1 x i, 1 + θ 2 x i, 2 + θ 3

$\begin{equation*} H_{\ell(\hat{\theta})} = \begin{bmatrix}\begin{split} \sum_{i=1}^{n}h_{\theta}(x_{i})(1-h_{\theta}(x_{i}))x_{i,1}x_{i,1},\ & \sum_{i=1}^{n}h_{\theta}(x_{i})(1-h_{\theta}(x_{i}))x_{i,1}x_{i,2},\ & \sum_{i=1}^{n}h_{\theta}(x_{i})(1-h_{\theta}(x_{i}))x_{i,1}\\ \sum_{i=1}^{n}h_{\theta}(x_{i})(1-h_{\theta}(x_{i}))x_{i,2}x_{i,1},\ & \sum_{i=1}^{n}h_{\theta}(x_{i})(1-h_{\theta}(x_{i}))x_{i,2}x_{i,2},\ & \sum_{i=1}^{n}h_{\theta}(x_{i})(1-h_{\theta}(x_{i}))x_{i,2},\\ \sum_{i=1}^{n}h_{\theta}(x_{i})(1-h_{\theta}(x_{i}))x_{i,1},\ & \sum_{i=1}^{n}h_{\theta}(x_{i})(1-h_{\theta}(x_{i}))x_{i,2},\ & \sum_{i=1}^{n}h_{\theta}(x_{i})(1-h_{\theta}(x_{i}))\\ \end{split}\end{bmatrix} \\ h_{\theta}(x_i) = \frac{1}{1 + e^{-z}}\\ z = \theta_{1}x_{i,1} + \theta_{2}x_{i,2}+\theta_3 \end{equation*}$

一阶导数

\nabla J = - ⟨ \sum n i = 1 (y i - h θ (x i)) x i, 1 \sum n i = 1 (y i - h θ (x i)) x i, 2 \sum n i = 1 (y i - h θ (x i)) ⟩

$\begin{equation*} \nabla J = -\left\langle\matrix{ \sum_{i=1}^{n}(y_{i} - h_{\theta}(x_{i}))x_{i,1}\cr \sum_{i=1}^{n}(y_{i} - h_{\theta}(x_{i}))x_{i,2}\cr \sum_{i=1}^{n}(y_{i} - h_{\theta}(x_{i})) }\right\rangle \end{equation*}$

注：
此外，还可以用sklearn自带函数求解逻辑回归参数
此三种方法的python3代码实现，点击这里，对比本文公式看。

Day-yong

关注

3
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
【机器学习】求解逻辑回归参数（梯度上升算法和牛顿法）

回顾这篇博客【链接】我们简单介绍了逻辑回归模型，留下了一个问题：怎么求解使J(θ)J(θ)J(\theta)最大的θθ\theta值呢？J(θ)=∑i=1m(y(i)loghθ(x(i))+(1−y(i))log(1−hθ(x(i))))J(θ)=∑i=1m(y(i)loghθ(x(i))+(1−y(i))log(1−hθ(x(i))))J(\theta) = \sum_{i=1}^...
复制链接

扫一扫

专栏目录