logistic回归的数学推导

最新推荐文章于 2024-05-28 15:43:25 发布

powder_snow

最新推荐文章于 2024-05-28 15:43:25 发布

阅读量4.7k

点赞数 4

分类专栏：机器学习文章标签：机器学习数学

本文链接：https://blog.csdn.net/powder_snow/article/details/78886918

版权

机器学习专栏收录该内容

0 篇文章 0 订阅

订阅专栏

1、引入

1.1 分类问题的描述

对于分类问题，我们通常将整个问题记为 $D = \{ {{\bf{x}}_i},{y_i}\} _{i = 1}^N$ ，我们的对于 $y$ 的预测值记为

y = f (x) = arg max c p (y = c | x, D)

$y = f(x) = \mathop {\arg \max }\limits_c p(y = c|{\bf{x}},D)$ 这个公式中，

y $y$ 为离散值，其取值范围为

y={1,2,...,C} $y = \{ 1,2,...,C\}$ ，表示有

C $C$ 个类别。当

C=2 $C=2$ 时即为二分类问题，在下面将详细讨论这种分类问题。在正式的讨论之前，回顾一下贝叶斯公式。

1.2 贝叶斯公式

贝叶斯公式中有三个概率：先验概率、后验概率、类条件概率。

先验概率： $p(y = c)$
类条件概率： $p(x|y = c)$
后验概率： $p(y = c|x)$

这里用一个例子来说明：
假设 $y=1$ 表示某个病人得病， $x$ 表示血液中白细胞的数量。
类条件概率 指的是当得了病之后，血液中白细胞的数量为某值的概率；
先验概率 指的是这个人本身得病的概率；
后验概率 指的是通过检查已经知道了某个人血液中的白细胞数量，这个人得病的概率。

我们熟悉的贝叶斯公式为：

P (A | B) = P ( B | A ) P ( A ) P ( B )

$P(A|B) = \frac{{P(B|A)P(A)}}{{P(B)}}$

1.3 logistic回归引入

接着第一部分的内容，当 $C=2$ 时，即为最简单的两分类问题，对于这类问题， $y$ 的取值为0和1两个，因此有 $p(y = 1|{\bf{x}}) + p(y = 0|{\bf{x}}) = 1$ ，求出其中一个就可以得到另一个概率。这里我们将这种二分类问题的分布称作Bernoulli分布。

p (y | x) = B e r (y | μ (x))

$p(y|{\bf{x}}) = Ber(y|\mu ({\bf{x}}))$
Tips：其中的

μ(x)=E(y|x)=p(y=1|x) $\mu (x) = E(y|x) = p(y = 1|x)$ 表示的是整个分布的均值。
（其中的

E(y|x)=1×p(y=1|x)+0×p(y=0|x) $E(y|{\bf{x}}) = 1 \times p(y = 1|{\bf{x}}) + 0 \times p(y = 0|{\bf{x}})$ ）

这里介绍一下bernoulli分布：

B e r (x | θ) = θ x (1 - θ) (1 - x)

$Ber(x|\theta ) = {\theta ^x}{(1 - \theta )^{(1 - x)}}$ 对于这个式子，他的正确性是肯定的，举个例子：

B e r (x | θ) = {1 - θ, x = 0 θ, x = 1

$Ber(x|\theta )=\left\{ \begin{array}{l} 1 - \theta ,x = 0\\ \theta ,x = 1 \end{array} \right.$

我们所说的logistic回归，就是在bernoulli分布的基础上，将 $\mu ({\bf{x}})$ 替换为 $\mu ({\bf{x}}) = sigmoid({{\bf{w}}^T}{\bf{x}})$
其中的sigmoid函数为：

s i g m o i d (η) = 1 1 + exp ( - η ) = exp ( η ) exp ( η ) + 1

$sigmoid(\eta ) = \frac{1}{{1 + \exp ( - \eta )}} = \frac{{\exp (\eta )}}{{\exp (\eta ) + 1}}$
图像为：

针对我们的logistic回归，

μ(x)=sigmoid(wTx) $\mu ({\bf{x}}) = sigmoid({{\bf{w}}^T}{\bf{x}})$ 一式中的

wTx ${{\bf{w}}^T}{\bf{x}}$ 的取值范围为

(−∞,+∞) $( - \infty , + \infty )$ ，而bernoulli分布参数的取值是

[0,1] $[0,1]$ ，因此这里的sigmoid函数的作用就是将取值范围为

(−∞,+∞) $( - \infty , + \infty )$ 的参数转换到

[0,1] $[0,1]$ 上。

2、损失函数与优化

2.1 损失函数与极大似然估计

在引入了logistic回归后，按照机器学习的常规操作需要确定损失函数，这里的损失函数使用负log似然。

J (w) = N L L (w) = - \sum i = 1 N log [(μ i) y i \times (1 - μ i) (1 - y i)] = \sum i = 1 N - [y i log (μ i) + (1 - y i) log (1 - μ i)]

$\begin{array}{ccccc} J( {\bf{w}}) = NLL( {\bf{w}}) = - \sum\limits_{i = 1}^N {\log [{{({\mu _i})}^{{y_i}}} \times {{(1 - {\mu _i})}^{(1 - {y_i})}}]} \\ = \sum\limits_{i = 1}^N { - [{y_i}\log ({\mu _i}) + (1 - {y_i})\log (1 - {\mu _i})]} \end{array}$ 这里根据

Ber(x|θ)=θx(1−θ)(1−x) $Ber(x|\theta ) = {\theta ^x}{(1 - \theta )^{(1 - x)}}$ 得到

w $w$ 的分布。
在上式中，我们称其中的

y i log (μ i) + (1 - y i) log (1 - μ i)

${y_i}\log ({\mu _i}) + (1 - {y_i})\log (1 - {\mu _i})$ 为 logistic损失，也称作 极大似然估计。

2.2 计算梯度

由2.1中得到的损失函数可以进行梯度的计算，由于步骤比较繁琐，这里使用图片进行表示。
损失函数： $J( {\bf{w}}) = \sum\limits_{i = 1}^N { - [{y_i}\log ({\mu _i}) + (1 - {y_i})\log (1 - {\mu _i})]}$
梯度： $\frac{{\partial J({\bf{w}})}}{{\partial {\bf{w}}}} = \frac{\partial }{{\partial {\bf{w}}}}[\sum\limits_{i = 1}^N { - [{y_i}\log ({\mu _i}) + (1 - {y_i})\log (1 - {\mu _i})]} ]$
梯度计算：
计算梯度

这里的计算也不复杂，主要是用了复合函数的求导。

在最后一步得到的 $\mu ({{\bf{x}}_i}) - {y_i}$ 称为预测的残差。
在上图中，公式 $\frac{\partial }{{\partial {\bf{w}}}}\mu ({\bf{x}}) = \mu ({\bf{x}})(1 - \mu ({\bf{x}})){\bf{x}}$ 的推导为如下所示：
计算梯度2
这里的求导主要用的是对于分数的求导，也不是很复杂，细心推一下就可以推出来。

在求得导数之后，我们如果想要使用牛顿法等二阶优化算法的话，需要计算对梯度再求一次导，也就是去计算他的Hessian矩阵。

H (w) = \partial \partial w [g (w) T] = \sum i = 1 N (\partial \partial w μ i) x T i = μ i (1 - μ i) x i x T i = X T d i a g (μ i (1 - μ i)) X

$\begin{array}{ccccc} {\bf{H}}({\bf{w}}) = \frac{\partial }{{\partial {\bf{w}}}}[g{({\bf{w}})^T}] = \sum\limits_{i = 1}^N {(\frac{\partial }{{\partial {\bf{w}}}}{\mu _i}){\bf{x}}_i^T} \\ = {\mu _i}(1 - {\mu _i}){{\bf{x}}_i}{\bf{x}}_i^T = {{\bf{X}}^T}diag({\mu _i}(1 - {\mu _i})){\bf{X}} \end{array}$ 也就是可以写成这样的形式，最后一个等号后面的矩阵表示说明了他是一个正定的矩阵，可以使用凸优化的方法对其进行优化。

2.3 牛顿法

主要思想是使用 $f(x)$ 泰勒展开的前几项来寻找 $f(x)=0$ 的解
首先对式子进行泰勒展开：

0 = g (w^) = g (w t) + (w^- w t) H (w t) + O (w^- w t)

$0 = {\bf{g}}(\hat w) = g({{\bf{w}}^t}) + ({\bf{\hat w}} - {{\bf{w}}^t})H({{\bf{w}}^t}) + O({\bf{\hat w}} - {{\bf{w}}^t})$ 去掉后面的高阶无穷小项，即可得：

g (w t) + (w^- w t) H (w t) = 0

$g({{\bf{w}}^t}) + ({\bf{\hat w}} - {{\bf{w}}^t})H({{\bf{w}}^t}) = 0$ 也就可以推得：

w^= w t - H - 1 (w t) g (w t)

${\bf{\hat w}} = {{\bf{w}}^t} - {{\bf{H}}^{ - 1}}({{\bf{w}}^t}){\bf{g}}({{\bf{w}}^t})$ 因此可以得到参数的更新规则为：

w t + 1 = w t - H - 1 (w t) g (w t)

${{\bf{w}}^{t + 1}} = {{\bf{w}}^t} - {{\bf{H}}^{ - 1}}({{\bf{w}}^t}){\bf{g}}({{\bf{w}}^t})$ 这种方法也叫作 二阶梯度下降法，因为他的参数更新形式与梯度下降法是很相似的，但是使用的是Hessian矩阵，也就是梯度的梯度进行更新。

另外，牛顿法一般比梯度下降的方法要快，可能的原因是使用牛顿法这种二阶梯度下降的算法“看”的更远，因此会有比一般梯度下降更快的收敛速度。