Logistic回归（理论篇）

最新推荐文章于 2023-12-04 13:56:57 发布

初沏的茶

最新推荐文章于 2023-12-04 13:56:57 发布

阅读量655

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/chuqidecha/article/details/80671928

版权

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

Logistic回归

Logistic回归是一种经典的统计学分类方法，被广泛应用于生产环境中。本文主要介绍Logistic回归模型的原理以及参数估计、公式推导方法。

Sigmoid函数(Logistic函数)

Sigmoid函数的数学形式是：

f (x) = 1 1 + e - x

$f(x)=\frac{1}{1+e^{-x}}$

其函数图像如下：
这里写图片描述
其图形是一个S型曲线，关于 $(0,\frac{1}{2})$ 对称，取值在[0,1],因此可以作为一个概率分布。
Sigmoid函数的导数为：

f (x)' = - e - x ( 1 + e - x ) 2 = 1 ( 1 + e - x ) 2 (1 - 1 1 + e - x) = f (x) (1 - f (x))

$\begin{align*} f(x)' &=-\frac{e^{-x}}{(1+e^{-x})^2} \\ &=\frac{1}{(1+e^{-x})^2}(1 -\frac{1}{1+e^{-x}}) \\ &= f(x)(1-f(x)) \end{align*}$

Logistic模型

将线性函数的结果映射到Sigmoid函数中，得到Logistic模型。它是一种二分类模型，由条件概率 $P(Y|X)$ 表示。随机变量 $X$ 的取值为实数， $Y$ 的取值为{0,1}。Logistic模型如下：

P (Y = 1 | x) = 1 1 + e - θ x

$P(Y=1|x)=\frac{1}{1+e^{-\theta x}}$

P (Y = 0 | x) = 1 - 1 1 + e - θ x = e - θ x 1 + e - θ x

$P(Y=0|x)= 1 - \frac{1}{1+e^{-\theta x}} = \frac{e^{-\theta x}}{1+e^{-\theta x}}$

极大似然估计

设：

h (θ) = 1 1 + e - θ x

$h(\theta) = \frac{1}{1+e^{-\theta x}}$
则Logistic模型可表示为：

P (Y = y | x) = h θ (x) y (1 - h θ (x)) (1 - y))

$P(Y=y|x) = h_{\theta}(x)^y(1-h_{\theta}(x))^{(1-y)})$
似然函数为：

L (θ) = \prod h θ (x (i)) y (i) (1 - h θ (x (i)) 1 - y (i))

$L(\theta) = \prod h_{\theta}(x^{(i)})^{y^{(i)}}(1 - h_{\theta}(x^{(i)})^{1-y^{(i)}})$
对数似然函数为：

l (θ) = \sum (y (i) l o g h θ (x (i)) + (1 - y (i)) (1 - l o g h θ (x (i))))

$l(\theta) = \sum ({y^{(i)}}logh_{\theta}(x^{(i)})+ ({1-y^{(i)}}) (1-logh_{\theta}(x^{(i)})))$
求

l(θ) l ( θ ) $l(\theta)$ 的极大值，得到

θ θ $\theta$ 的估计。
为了和线性回归保持一致，两边同时乘以

−1 − 1 $-1$ 得到目标函数：

J (θ) = - \sum (y (i) l o g h θ (x (i)) + (1 - y (i)) (1 - l o g h θ (x (i))))

$J(\theta) = - \sum ({y^{(i)}}logh_{\theta}(x^{(i)})+ ({1-y^{(i)}}) (1-logh_{\theta}(x^{(i)})))$
求得

J(θ) J ( θ ) $J(\theta)$ 的极小值

随机梯度下降法求解参数

对 $\theta$ 求偏导得：

\partial J ( θ ) \partial θ j = - \sum (y (i) 1 h θ ( x ( i ) ) - (1 - y (i)) 1 1 - h θ ( x ( i ) )) \partial \partial θ j h θ (x (i)) = - \sum (y (i) 1 h θ ( x ( i ) ) - (1 - y (i)) 1 1 - h θ ( x ( i ) )) h θ (x (i) (1 - h θ (x (i)) \partial θ j θ x = \sum (h θ (x (i)) - y (i)) x (i) j

$\begin{align*} \frac{\partial J(\theta)}{\partial \theta_j} &= -\sum ({y^{(i)}}\frac{1}{h_{\theta}(x^{(i)})} - ({1-y^{(i)}}) \frac{1}{1-h_{\theta}(x^{(i)})})\frac{\partial}{\partial \theta_j}h_{\theta}(x^{(i)}) \\ &= -\sum ({y^{(i)}}\frac{1}{h_{\theta}(x^{(i)})} - ({1-y^{(i)}}) \frac{1}{1-h_{\theta}(x^{(i)})})h_{\theta}(x^{(i)}(1-h_{\theta}(x^{(i)})\frac{\partial}{\theta_j}\theta x \\ &=\sum(h_{\theta}(x^{(i)}) - y^{(i)})x^{(i)}_j \end{align*}$
采用随机梯度下降法求参数的更新公式为：