逻辑回归 — Logistic Regression

最新推荐文章于 2024-07-11 15:21:16 发布

_rho

最新推荐文章于 2024-07-11 15:21:16 发布

阅读量365

点赞数

分类专栏：机器学习文章标签：机器学习逻辑回归

机器学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

逻辑回归通式定义如下：
$\begin{cases} p(z_i) = \frac {1}{1 + e^{-z_i}} \\ z_i = \theta^Tx_i \end{cases}$

要想理解逻辑回归，我们需要看一下函数 $p$ 的图像，如下图：
logistic_func

由图可知，在 $\in R$ 的定义域中，函数 $p$ 将 $z$ 映射到 $(0, 1)$ 的值域中，其中 $z = 0$ 时， $p (z) = 0.5$ 。一种常见的对这个图的解释是 $p(x_i; \theta) = \frac {1}{1+e^{-\theta^Tx_i}}$ 是事件 $x_i$ 发生的概率。

事件 $x_i$ 发生与否其实也就是一个二分类问题。我们可以用标签 $y_i = 1$ 表示事件 $x_i$ 发生，标签 $y_i = 0$ 表示事件 $x_i$ 不发生。用函数 $p(x;\theta)$ 表示事件 $x$ 发生的概率 $\vert X=x)$ 。因此，事件 $x$ 不发生的概率 $\vert X=x)$ 为 $p(x;\theta)$ 。我们可以用一个式子表示如上两种情况：
$Pr(Y=y_i \vert X=x_i) = p(x_i; \theta)^{y_i} (1-p(x_i; \theta))^{1-y_i}$

从现在开始，我们应该对逻辑回归有了初步的认识。逻辑回归是一个分类算法，而非回归算法。本文主要分析其在二分类问题中的应用。逻辑回归以概率的方式来对数据进行分类。例如，设置阈值为 $0.5$ ，如果 $\vert X=x_i) \ge 0.5$ ，则将数据 $x_i$ 标记为类 $1$ ，否则将其标记为类 $0$ 。 $p(x_i;\theta) = 0.5$ 其实就是一个超平面，平面之上的点组成 $y_i = 1$ 的集合，平面之下的点组成 $y_i = 0$ 的集合。总结一下我们的问题：已知 $x_i$ 和 $y_i$ ，求函数 $p(x_i; \theta)$ 中的 $\theta$ 的取值。

首先，我先给出此问题的似然函数：
$\prod\limits_{i=1}^m Pr(Y=y_i \vert X=x_i)$

为了理解这个最大似然估计函数，我们考虑一个简单的、却类似的问题。假设一个袋子里有若干颗白球和黑球，在10次有放回的抽取中，我抽到了8次黑球，2次白球。如何求袋子中黑白球的比例呢？我们可以利用最大似然估计：假设我抽取到黑球的概率为 $p$ ，那么我这次抽取得到8次黑球、2次白球的概率为：
$P = p^8*(1-p)^2$

我们用使这次抽取结果发生的概率 $P$ 最大化的 $\hat p$ 值去近似替代实际的 $p$ 值。

同样的道理，回到逻辑回归的问题中。我们要目前已知的标签集合 $Y$ 发生的概率最大化，求该情况下的 $\theta$ 的取值。因此：
$L(\theta) = \prod\limits_{i=1}^m Pr(Y=y_i \vert X=x_i) = \prod\limits_{i=1}^m p(x_i; \theta)^{y_i} (1-p(x_i; \theta))^{1-y_i}$

对数似然函数为：
$\begin{aligned} & l(\theta) = \log(L(\theta)) = \sum\limits_{i=1}^m \log[p(x_i; \theta)^{y_i} (1-p(x_i; \theta))^{1-y_i}] \\ & = \sum\limits_{i=1}^m [y_i \log p(x_i) +(1-y_i)\log (1-p(x_i))] \\ & = \sum\limits_{i=1}^m [\log (1-p(x_i)) + y_i(\log p(x_i) - \log(1-p(x_i)))] \\ & = \sum\limits_{i=1}^m [\log (1-p(x_i)) + y_i\log \frac {p(x_i)}{1-p(x_i)}] \\ & = \sum\limits_{i=1}^m [\log (1-\frac {1}{1+e^{-\theta^Tx_i}}) + y_i\log \frac {(1+e^{-\theta^Tx_i})^{-1}}{1-(1+e^{-\theta^Tx_i})^{-1}}] \\ & = \sum\limits_{i=1}^m [\log \frac {e^{-\theta^Tx_i}}{1+e^{-\theta^Tx_i}} + y_i\log \frac {1}{(1+e^{-\theta^Tx_i}) -1}] \\ & = \sum\limits_{i=1}^m [\log \frac {1}{e^{\theta^Tx_i}+1} + y_i\log e^{\theta^Tx_i}] \\ & = \sum\limits_{i=1}^m -\log (e^{\theta^Tx_i}+1) + \sum\limits_{i=1}^m y_i\theta^Tx_i \\ \end{aligned}$

求 $l(\theta)$ 对 $\theta_j$ 的偏导数：
$\begin{aligned} & \frac {\partial l(\theta)}{\partial \theta_j} = \frac {\partial}{\theta_j} [\sum\limits_{i=1}^m -\log (e^{\theta^Tx_i}+1) + \sum\limits_{i=1}^m y_i\theta^Tx_i] \\ & = \sum\limits_{i=1}^m -\frac {e^{\theta^Tx_i}x_i^j}{1+e^{\theta^Tx_i}} + \sum\limits_{i=1}^m y_ix_i^j \\ & = \sum\limits_{i=1}^m[y_i - \frac {e^{\theta^Tx_i}}{1+e^{\theta^Tx_i}}]x_i^j \\ & = \sum\limits_{i=1}^m[y_i - \frac {1}{1+e^{-\theta^Tx_i}}]x_i^j \\ & = \sum\limits_{i=1}^m[y_i - p(x_i;\theta)]x_i^j \\ \end{aligned}$