机器学习 Logistic Regression

最新推荐文章于 2020-09-08 16:42:45 发布

翻译最新推荐文章于 2020-09-08 16:42:45 发布 · 2k 阅读

文章标签：

#机器学习

机器学习专栏收录该内容

114 篇文章

订阅专栏

本文介绍了Logistic回归的基本原理及其参数估计方法，并深入探讨了广义线性模型(GLMs)的概念。通过对比高斯分布和伯努利分布，展示了这两种常见分布如何嵌入到广义指数分布族中，进而解释了Logistic回归和最小二乘回归如何成为广义线性模型的特例。

Logistic Regression

之前我们讨论过回归问题，并且讨论了线性回归模型。现在我们来看看分类问题，分类问题与回归问题类似，只不过输出变量一个是离散的，一个是连续的。我们先关注二分类问题，假设
输出变量 $y$ 只能取 0 或者 1 两个值，直观上，对于所有的输入变量，我们都希望可以映射到 [0-1] 的范围内, 为此，我们可以建立如下的函数：

h θ (x) = g (θ T x) = 1 1 + e - θ T x

$\begin{equation*} h_{\boldsymbol{\theta}}(\mathbf{x})=g(\boldsymbol{\theta}^{T} \mathbf{x})=\frac {1} {1+e^{-\boldsymbol{\theta}^{T} \mathbf{x}}} \end{equation*}$
其中，

g (z) = 1 1 + e - z

$\begin{equation*} g(z)=\frac {1} {1+e^{-z}} \end{equation*}$
称之为 logistic 函数或者 sigmoid 函数. 很容易看出这个函数的值域在(0-1)之间。我们可以求得 logistic 函数的导数为：

g' (z) = 1 ( 1 + e - z ) 2 e - z = 1 ( 1 + e - z ) \cdot (1 - 1 ( 1 + e - z )) = g (z) (1 - g (z))

$\begin{equation*} \begin{split} g'(z) & =\frac {1} {(1+e^{-z})^{2}} e^{-z} \\ & = \frac {1} {(1+e^{-z})} \cdot \left(1- \frac {1} {(1+e^{-z})} \right ) \\ & = g(z)(1-g(z)) \end{split} \end{equation*}$
那么，对于 logistic 回归模型，如何估计参数

θ $\boldsymbol{\theta}$ 。我们之前讲过，从最大似然估计出发，可以导出最小均方误差函数，也就是
最小二乘回归模型。同样地，我们仍然可以利用最大似然估计的方法来拟合 logistic 回归模型的参数，我们先给出如下的概率假设：

P (y = 1 | x; θ) = h θ (x) P (y = 0 | x; θ) = 1 - h θ (x)

$\begin{equation*} \begin{split} & P(y=1 | \mathbf{x}; \boldsymbol{\theta})=h_{\boldsymbol{\theta}}(\mathbf{x}) \\ & P(y=0 | \mathbf{x}; \boldsymbol{\theta})=1-h_{\boldsymbol{\theta}}(\mathbf{x}) \end{split} \end{equation*}$
考虑到

y $y$ 只能取 0 或 1 两个值，上面的概率分布可以用一个式子表示成：

p (y | x; θ) = (h θ (x)) y (1 - h θ (x)) 1 - y

$\begin{equation*} p(y | \mathbf{x}; \boldsymbol{\theta})=(h_{\boldsymbol{\theta}}(\mathbf{x}))^{y} (1-h_{\boldsymbol{\theta}}(\mathbf{x}))^{1-y} \end{equation*}$
假设一组训练集含有

m $m$ 个训练样本，并且训练样本是相互独立的，那么这组训练集的概率分布为：

L (θ) = p (y | X; θ) = \prod i = 1 m p (y i | x i; θ) = \prod i = 1 m (h θ (x i)) y i (1 - h θ (x i)) 1 - y i

$\begin{equation*} \begin{split} L(\boldsymbol{\theta}) & =p(\mathbf{y}|\mathbf{X}; \boldsymbol{\theta}) \\ & =\prod_{i=1}^{m}p(y_{i}|\mathbf{x}_{i}; \boldsymbol{\theta}) \\ & =\prod_{i=1}^{m} (h_{\boldsymbol{\theta}}(\mathbf{x}_{i}))^{y_{i}} (1-h_{\boldsymbol{\theta}}(\mathbf{x}_{i}))^{1-y_{i}} \end{split} \end{equation*}$
对上式取对数，可以得到:

l (θ) = log L (θ) = \sum i = 1 m y i log h (x i) + (1 - y i) log (1 - h (x i))

$\begin{equation*} \begin{split} l(\boldsymbol{\theta}) & =\text{log}L(\boldsymbol{\theta}) \\ & = \sum_{i=1}^{m} y_{i} \text{log} h_(\mathbf{x}_{i})+(1-y_{i})\text{log}(1-h_(\mathbf{x_i})) \end{split} \end{equation*}$
如何使得上式的概率最大？我们可以利用梯度下降法，定义如下的式子：

θ : = θ + α \nabla θ l (θ)

$\begin{equation*} \boldsymbol{\theta}: =\boldsymbol{\theta}+\alpha \nabla_{\boldsymbol{\theta}}l(\boldsymbol{\theta}) \end{equation*}$
其中，

∇θl(θ) $\nabla_{\boldsymbol{\theta}}l(\boldsymbol{\theta})$ 是函数

l(θ) $l(\boldsymbol{\theta})$ 对

θ $\boldsymbol{\theta}$ 的导数。
为了推导

l(θ) $l(\boldsymbol{\theta})$ 对

θ $\boldsymbol{\theta}$ 的导数，我们先考虑只有一对训练样本的情况。则：

\partial \partial θ j l (θ) = (y g ( θ T x ) - 1 - y 1 - g ( θ T x )) \partial \partial θ j g (θ T x) = (y g ( θ T x ) - 1 - y 1 - g ( θ T x )) g (θ T x) (1 - g (θ T x)) \partial \partial θ j θ T x = (y (1 - g (θ T x)) - (1 - y) g (θ T x)) x j = (y - g (θ T x)) x j = (y - h θ (x)) x j

$\begin{equation*} \begin{split} \frac{\partial }{\partial \theta_{j}}l(\boldsymbol{\theta}) & = \left( \frac{y}{g(\boldsymbol{\theta}^{T}\mathbf{x})}-\frac{1-y}{1-g(\boldsymbol{\theta}^{T}\mathbf{x})} \right) \frac{\partial }{\partial \theta_{j}} g(\boldsymbol{\theta}^{T}\mathbf{x}) \\ & =\left( \frac{y}{g(\boldsymbol{\theta}^{T}\mathbf{x})}-\frac{1-y}{1-g(\boldsymbol{\theta}^{T}\mathbf{x})} \right) g(\boldsymbol{\theta}^{T}\mathbf{x}) (1-g(\boldsymbol{\theta}^{T}\mathbf{x})) \frac{\partial }{\partial \theta_{j}} \boldsymbol{\theta}^{T}\mathbf{x} \\ & =\left( y(1-g(\boldsymbol{\theta}^{T}\mathbf{x})) -(1-y) g(\boldsymbol{\theta}^{T}\mathbf{x}) \right)x_{j} \\ & =(y-g(\boldsymbol{\theta}^{T}\mathbf{x}))x_{j} \\ & =(y-h_{\boldsymbol{\theta}}(\mathbf{x}))x_{j} \\ \end{split} \end{equation*}$
因此，我们可以得到如下的参数

θj $\theta_{j}$ 的更新表达式：

θ j : = θ j + α (y - h θ (x)) x j

$\begin{equation*} \theta_{j}:=\theta_{j}+\alpha (y-h_{\boldsymbol{\theta}}(\mathbf{x})) x_{j} \end{equation*}$
我们可以看到，这个表达式和第一讲里的LMS更新表达式很像，两者的区别在于LMS里的

hθ(x) $h_{\boldsymbol{\theta}}(\mathbf{x})$ 是一个线性函数，所以我们称之为线性回归，而这里的

hθ(x) $h_{\boldsymbol{\theta}}(\mathbf{x})$ 是一个非线性函数。

Generalized Linear Models

迄今为止，我们探讨了一个回归问题（第一讲），也探讨了一个分类问题（第三讲）。在回归问题中，我们定义了如下的概率分布： $y|\mathbf{x}; \boldsymbol{\theta} \sim N(\mu,\sigma^{2})$ , 而在分类问题中，我们定义了另外一种概率分布： $y|\mathbf{x}; \boldsymbol{\theta} \sim \text{Bernoulli}(\phi)$ . 接下来，我们将说明，上面所提到的两种分布，是一个广义分布族的特殊情况。这个广义分布族我们称之为，Generalized Linear Models (GLMs) (广义线性模), 我们也将说明该广义分布族中的其他模型能够适用于其他的回归或者分类问题。

The exponential family

首先我们定义一个指数族分布。如果任何一组变量满足指数族分布，那么该变量的概率分布可以表示为：

p (y; η) = b (y) exp (η T T (y) - a (η)) (1)

$\begin{equation} p(y;\eta)=b(y)\text{exp}(\eta^{T}T(y)-a(\eta)) \qquad (1) \end{equation}$
其中，

η $\eta$ 称之为 natural parameter 或者 canonical parameter,

T(y) $T(y)$ 是 sufficient statistic,

a(η) $a(\eta)$ 是log partition function.

e−a(η) $e^{-a(\eta)}$ 是归一化参数。
对于给定的

T,a,b $T,a,b$ ，可以得到关于

η $\eta$ 的一组概率分布，不同的

η $\eta$ 对应着不同的概率分布。
接下来，我们将证明，Bernoulli分布和Gaussian分布是属于指数分布中的两种情况。Bernoulli分布，假设均值为

ϕ $\phi$ ,写作Bernoulli}

(ϕ) $(\phi)$ ,输出变量的范围为

y∈{0,1} $y \in \{0,1\}$ , 那么，Bernoulli分布可以表示成

p(y=1;ϕ)=ϕ $p(y=1;\phi)=\phi$ ,

p(y=0;ϕ)=1−ϕ $p(y=0;\phi)=1-\phi$ ,不同的

ϕ $\phi$ 可以得到不同均值的\textbf{Bernoulli}分布。我们将会看到，通过设置

T,a,b $T,a,b$ ，式(1)可以变成Bernoulli分布。
Bernoulli分布可以写成：

p (y; ϕ) = ϕ y (1 - ϕ) (1 - y) = exp (y log ϕ + (1 - y) log (1 - ϕ)) = exp ((log (ϕ 1 - ϕ)) y + log (1 - ϕ))

$\begin{equation*} \begin{split} p(y;\phi)& =\phi^{y}(1-\phi)^{(1-y)} \\ & =\text{exp}(y\text{log}\phi+(1-y)\text{log}(1-\phi)) \\ & =\text{exp} \left( \left(\text{log}(\frac{\phi}{1-\phi})\right)y+\text{log}(1-\phi) \right) \end{split} \end{equation*}$
为了用式(1)表示Bernoulli分布，我们可以定义

η=log(ϕ/(1−ϕ)) $\eta=\text{log}(\phi/(1-\phi))$ ，我们也可以得到

ϕ=1/(1+e−η) $\phi=1/(1+e^{-\eta})$ ，进一步的，我们可以定义

T (y) = y; a (η) = - log (1 - ϕ) = log (1 + e η); b (y) = 1;

$\begin{equation*} T(y)=y; \quad a(\eta)=-\text{log}(1-\phi)=\text{log}(1+e^{\eta}); \quad b(y)=1; \end{equation*}$
我们可以看到，通过定义合适的

T,a,b $T,a,b$ ，Bernoulli分布可以用广义的指数分布族表示。
接下来，我们看看Gaussian分布和广义指数分布族的关系，我们定义高斯分布为

N∼(μ,σ2) $N \sim (\mu, \sigma^{2})$ ,在讨论最大似然概率的时候，我们曾经看到方差

σ2 $\sigma ^{2}$ 对最终的结果没有影响，为了简化这个问题，这里假定
方差为1，即

σ2=1 $\sigma^{2}=1$ , 那么Gaussian概率分布可以表示为：

p (y; μ) = 1 2 π - - \sqrt exp (- 1 2 (y - μ) 2) = 1 2 π - - \sqrt exp (- 1 2 y 2) \cdot exp (μ y - 1 2 μ 2)

$\begin{equation*} \begin{split} p(y;\mu) & =\frac{1}{\sqrt{2 \pi}}\text{exp}\left(-\frac{1}{2} (y-\mu)^{2} \right) \\ & = \frac{1}{\sqrt{2 \pi}} \text{exp} \left(-\frac{1}{2}y^{2} \right) \cdot \text{exp} \left( \mu y - \frac{1}{2} \mu^{2}\right) \end{split} \end{equation*}$
因此，我们可以定义

η = μ; T (y) = y; a (η) = μ 2 / 2 = η 2 / 2; b (y) = 1 2 π - - \sqrt exp (- y 2 / 2)

$\begin{equation*} \eta=\mu; \quad T(y)=y; \quad a(\eta)=\mu^{2}/2=\eta^{2}/2; \quad b(y)=\frac{1}{\sqrt{2 \pi}}\text{exp}(-y^{2}/2) \end{equation*}$
同样可以看到，Gaussian分布可以表示成指数分布。
事实上，我们常见的很多分布都是指数分布族中的一种，像multinomial (二项式分布), Poisson (泊松分布), 还有Gamma 分布,Beta分布等。

构造 Generalized Linear Models(GLMs)

这一章节，我们将要探讨如何构造Generalized Linear Models(GLMs)，通常情况下，当我们考虑一个回归问题或者分类问题，我们希望预测随机变量 $y$ 的值， $y$
是关于 $x$ 的函数值，为了能够建立GLM模型，求得 $y$ 关于 $x$ 的条件分布，我们先给出三个假设：
1: $y|x;\theta \sim \text{ExponentialFamily}(\eta)$ , 即给定 $x$ 和 $\theta$ , $y$ 的分布是满足指数族分布的。
2:给定 $x$ ,我们的目标是预测 $T(y)$ 关于 $x$ 的期望值，大多数情况下， $T(y)=y$ ,这意味着我们希望预测值 $h(x)$ 满足 $h(x)=E[y|x]$ .
3: natural parameter $\eta$ 与输入 $x$ 满足线性关系，即 $\eta=\theta^{T}x$ .
这三个假设可以让我们派生出一系列非常优美的学习算法，我们称之为广义线性模型，这些模型可以非常有效地建立关于 $y$ 的不同的概率分布，接下来，我们将简单证明
之前提到的logistic regression和一般最小二乘(LMS)都从GLMs 演化而来。
为了证明一般最小二乘是广义线性模型中的一个特例，我们先假设目标变量 $y$ 是连续的，并且假设 $y$ 关于 $x$ 的条件分布服从高斯分布 $N \sim (\mu, \sigma^{2})$ ，我们把指数族分布式(1) 定义成高斯分布的形式,那么 $\mu=\eta$ ，因此，我们有：

h θ (x) = E [y | x; θ] = μ = η = θ T x

$\begin{equation*} \begin{split} h_{\theta}(x) & =E[y|x;\theta] \\ & = \mu \\ & = \eta \\ & = \theta_{T}x \end{split} \end{equation*}$
从上式可以看出，第一个等式基于假设2，因为高斯分布的期望就是均值

μ $\mu$ ,所以第二个等式也成立，第三个等式基于假设1，最后一个等式基于假设3。
我们可以看到从这三个假设可以推导出一般最小二乘的假设函数是

hθ(x)=θTx $h_{\theta}(x)=\theta_{T}x$ ，所以一般最小二乘属于广义线性模型中的一种。现在我们看看 logistic regression, 这里我们探讨的是二分类问题，所以

y∈{0,1} $y \in \{0,1\}$ 。考虑到

y $y$ 只能取0,1两个值，所以选择Bernoulli分布来表示

y $y$ 相对于

x $x$ 的条件分布,Bernoulli表示成指数分布族的时候，我们知道

ϕ=1/(1+e−η) $\phi=1/(1+e^{-\eta})$ , 而且注意，如果

y|x;θ∼Bernoulli(ϕ) $y|x;\theta \sim \text{Bernoulli}(\phi)$ ，那么

E[y|x;θ]=ϕ $E[y|x;\theta]=\phi$ ，所以和一般最小二乘的推导相似，我们可以得到：

h θ (x) = E [y | x; θ] = ϕ = 1 / (1 + e - η) = 1 / (1 + e - θ T x)

$\begin{equation*} \begin{split} h_{\theta}(x) & =E[y|x;\theta] \\ & = \phi \\ & = 1/(1+e^{-\eta}) \\ & = 1/(1+e^{-\theta_{T}x}) \end{split} \end{equation*}$
因此我们可以得到logistic regression的假设函数

hθ(x)=1/(1+e−θTx) $h_{\theta}(x)=1/(1+e^{-\theta_{T}x})$ ，所以logistic regression也是广义线性模型中的一种. 一般来说，某个分布的期望与natural parameter

η $\eta$ 的关系可以用函数

g $g$ 表示为(

g(η)=E[T(y);η] $g(\eta)=E[T(y);\eta]$ )，函数

g $g$ 称为canonical response function,而

g $g$ 的反函数

g−1 $g^{-1}$ 称为canonical link function。所以高斯分布的 canonical response function就是 identify function，而Bernoulli分布的 canonical response function就是 logistic function。