Logistic Regression详解

最新推荐文章于 2024-07-16 21:43:08 发布

AlexInML

最新推荐文章于 2024-07-16 21:43:08 发布

阅读量3.8k

点赞数

分类专栏：机器学习基础文章标签：逻辑回归多类推导 Logistic

本文链接：https://blog.csdn.net/wangjian1204/article/details/50445988

版权

机器学习基础专栏收录该内容

12 篇文章 3 订阅

订阅专栏

Logistic Regression（简称LR）作为一个经典的机器学习分类算法，由于其出众的分类效果和简单的模型，在学术界和工业界都占有重要的地位。此外，Logistic Regression构造目标函数的思路也很值得学习和借鉴。

一、二分类问题：

Logistic函数：

Logistic Regression的核心是Logistic函数，损失函数的构造也正是利用了Logistic函数的特点。Logistic函数形式如下：

δ (a) = 1 1 + e - a

$\begin{equation} \delta (a) = \frac{1}{1 + e^{-a}} \end{equation}$

从图中可以发现，当 $a$ 接近6时，函数值接近于1；当 $a$ 接近-6时，函数值接近于0。这为0-1分类提供了很好的特性。

损失函数：

Logistic Regression用“Logistic函数+线性模型”来预测0-1类别的概率：

P (C 1 | x) = δ (x w) = 1 1 + e - x w

$\begin{equation} P(C_1|x) = \delta (xw) = \frac{1}{1 + e^{-xw}} \end{equation}$
其中

x1×d $x_{1\times d}$ 是输入样本，

wd×1 $w_{d\times 1}$ 是投影向量。当

xw $xw$ 的值较大时，

P(C1|x) $P(C_1|x)$ 接近于1。

P (C 0 | x) = 1 - P (C 1 | x)

$\begin{equation} P(C_0|x) = 1 - P(C_1|x) \end{equation}$

定义样本的标签为 $t_i \in \{0,1\}$ ，则训练数据集上的似然函数为：

P (t | w) = \prod i = 1 n P (C 1 | x i) t i (1 - P (C 1 | x i)) 1 - t i = \prod i = 1 n P (C 1 | x i) t i P (C 0 | x i) 1 - t i

$\begin{equation} P(t|w) = \prod_{i=1}^n {P(C_1|x_i)}^{t_i} {(1- P(C_1|x_i))}^{1 - {t_i}} = \prod_{i=1}^n {P(C_1|x_i)}^{t_i} {P(C_0|x_i)}^{1 - {t_i}} \end{equation}$

很巧妙的，当 $t_i = 1$ 时（类别1）， $P(t|w)$ 增加一项 $P(C_1|x_i)$ ；当 $t_i = 0$ 时（类别0）， $P(t|w)$ 增加一项 $P(C_0|x_i)$ 。这个小技巧已经被广泛应用，不得不佩服研究人员的智慧。

构造损失函数（Negative Log-Likelihood）：也称为交叉熵（cross-entropy）误差函数，对 $P(t|w)$ 取负对数

E (w) = - ln P (t | w) = - \sum i = 1 n {t i ln P (C 1 | x i) + (1 - t i) ln (1 - P (C 1 | x i))}

$\begin{equation} E(w) = -\ln P(t|w) = -\sum_{i=1}^n \{{t_i}\ln{P(C_1|x_i)} + {(1 - {t_i})}\ln {(1- P(C_1|x_i))}\} \end{equation}$

对损失函数进行拆分：

C o s t = {- ln P (C 1 | x i) - ln (1 - P (C 1 | x i)) if t i = 1, if t i = 0.

$\begin{equation} Cost = \begin{cases} -\ln{P(C_1|x_i)} & \text{if} \;\;t_i = 1,\\ -\ln {(1- P(C_1|x_i))} & \text{if} \;\;t_i = 0.\\ \end{cases} \end{equation}$

两幅Cost图很直观的展示了 $P(C_1|x_i)$ 和 $t_i$ 的值对Cost的影响。当 $t_i = 1$ 时， $P(C_1|x_i)$ 的值越大，Cost越小； $t_i = 0$ 时相反。

求偏导：

最小化损失函数求 $w$ ，通常可以使用梯度下降算法得到 $w$ 的局部最优值。对梯度下降算法的介绍可以参考我的另一篇博文：深入了解梯度下降算法

\partial P ( C 1 | x ) \partial w = \partial 1 1 + e - x w \partial w = \partial ( 1 + e - x w ) - 1 \partial w = - e - x w \cdot ( - x ⊤ ) ( 1 + e - x w ) 2 = e - x w 1 + e - x w \cdot 1 1 + e - x w \cdot x ⊤ = (1 - P (C 1 | x)) P (C 1 | x) x ⊤

$\begin{equation} \begin{split} &\frac{\partial P(C_1|x)}{\partial w} = \frac{\partial \frac{1}{1 + e^{-xw}}}{\partial w} = \frac{\partial {(1 + e^{-xw})}^{-1}}{\partial w}\\ &=-\frac{e^{-xw} \cdot (-x^\top) }{{(1 + e^{-xw})}^{2}} = \frac{e^{-xw} }{{1 + e^{-xw}}} \cdot \frac{1 }{{1 + e^{-xw}}}\cdot x^\top\\ &= (1- P(C_1|x))P(C_1|x) x^\top\\ \end{split} \end{equation}$

损失函数对 $w$ 求偏导:

\partial E ( w ) \partial w = - \sum i = 1 n {t i P ( C 1 | x i ) \partial P ( C 1 | x i ) \partial w + 1 - t i 1 - P ( C 1 | x i ) (- \partial P ( C 1 | x i ) \partial w)} = - \sum i = 1 n {t i (1 - P (C 1 | x i)) x ⊤ i - (1 - t i) P (C 1 | x i) x ⊤ i} = - \sum i = 1 n {t i - t i P (C 1 | x i) - P (C 1 | x i) + t i P (C 1 | x i)} x ⊤ i = \sum i = 1 n {P (C 1 | x i) - t i} x ⊤ i

$\begin{equation} \begin{split} &\frac{\partial E(w)}{\partial w} = -\sum_{i=1}^n \{\frac{t_i}{P(C_1|x_i)}\frac{\partial P(C_1|x_i)}{\partial w} + \frac{1 - t_i}{1 - P(C_1|x_i)}(-\frac{\partial P(C_1|x_i)}{\partial w})\}\\ &=-\sum_{i=1}^n \{t_i (1 - P(C_1|x_i))x_i^\top - (1 - t_i)P(C_1|x_i)x_i^\top\}\\ &=-\sum_{i=1}^n\{t_i -t_i P(C_1|x_i) - P(C_1|x_i) + t_i P(C_1|x_i)\}x_i^\top\\ &=\sum_{i=1}^n\{P(C_1|x_i) - t_i\}x_i^\top\\ \end{split} \end{equation}$
至此，已经可以很容易写出二分类问题Logistic Regression分类器的代码了，在此不再赘述。

二、多类情况：

多分类问题的Logistic Regression与二分类问题很相似，多分类Logistic Regression用的是Softmax函数，但是在本质上Softmax函数和Logistic函数优化目标是一致的。

Softmax：

P (Y = i | x ~, W ~, b) = s o f t m a x i (x ~ W ~ + b) = e x ~ W ~ i + b i \sum j e x ~ W ~ j + b j

$\begin{equation} P(Y=i|\tilde{x}, \tilde{W}, b) = softmax_i (\tilde{x} \tilde{W} + b) = \frac{e^{\tilde{x} \tilde{W}_i + b_i}}{\sum_j e^{\tilde{x} \tilde{W}_j + b_j}} \end{equation}$

在实际中，常把偏置 $b$ 加入到 $\tilde{W}$ 矩阵内： $W_i = [\tilde{W}_i , b_i]$ 。同时在样本 $\tilde{x}$ 的最后扩展一维： $x = [\tilde{x}, 1]$ 。Softmax式子简化后的形式是：

P (Y = i | x, W) = s o f t m a x i (x W) = e x W i \sum j e x W j

$\begin{equation} P(Y=i|x, W) = softmax_i (xW) = \frac{e^{xW_i}}{\sum_j e^{xW_j}} \end{equation}$

类别预测：

y p r e d = max i P (Y = i | x, W)

$\begin{equation} y_{pred} = \max_i P(Y=i|x, W) \end{equation}$

符号定义说明：

向量 $x_{1\times d}$ 是输入数据，整个训练集为 $X_{n\times d}$ ，每一行是一个样本；
矩阵 $W_{d\times K}$ 是投影矩阵,每一列对应于一个类别，共有K个类；
数据的原始标签为 $y_{n\times 1}$ ，对应于 $n$ 个样本。

损失函数：

把原始标签信息写成矩阵的形式 $T_{n\times K}$ ，如果第i个样本属于类别k，则 $t_{ik} = 1$ ，否则 $t_{ik} = 0$ :

t i k = {10 if l a b e l (x i) = k, if l a b e l (x i) \neq k .

$\begin{equation} t_{ik} = \begin{cases} 1 & \text{if} \;\;label(x_i) = k,\\ 0 & \text{if} \;\;label(x_i) \ne k. \end{cases} \end{equation}$

每个样本只属于一个类，所以可以得到（这个式子会在后面求偏导的时候用到）：

\sum k t i k = 1

$\begin{equation} \sum_k t_{ik} = 1 \end{equation}$

似然函数：

P (T | W) = \prod i = 1 n P (Y = y i | X i, W) = \prod i = 1 n \prod k = 1 K P (Y = k | X i, W) t i k

$\begin{equation} P(T|W) = \prod_{i=1}^n P(Y=y_i|X_i, W) = \prod_{i=1}^n \prod_{k=1}^K {P(Y=k|X_i, W)}^{t_{ik}} \end{equation}$

构造损失函数（Negative Log-Likelihood）：

E (W) = - ln P (T | W) = - \sum i = 1 n \sum k = 1 K t i k ln P (Y = k | X i, W)

$\begin{equation} E(W) = -\ln P(T|W) = -\sum_{i=1}^n \sum_{k=1}^K t_{ik}\ln P(Y=k|X_i, W) \end{equation}$
这是多分类问题的交叉熵（cross-entropy）误差函数。

求偏导：

为了符号的简洁，记 $P_{ik} = P(Y=k|X_i, W) = \frac{e^{X_i W_k }}{\sum_j e^{X_i W_j }}$

\partial P i c \partial W c = e X i W c \sum j e X i W j X ⊤ i - ( e X i W c ) 2 ( \sum j e X i W j ) 2 X ⊤ i = (P i c - P 2 i c) \cdot X ⊤ i

$\begin{equation} \begin{split} &\frac{\partial P_{ic}}{\partial W_c} = \frac{e^{X_i W_c}}{\sum_j e^{X_i W_j}} X_i^\top - \frac{(e^{X_i W_c})^2}{(\sum_j e^{X_i W_j})^2} X_i^\top= (P_{ic} - P_{ic}^2)\cdot X_i^\top\\ \end{split} \end{equation}$

\partial P i k \partial W c = - e X i W k \cdot e X i W c ( \sum j e X i W j ) 2 X ⊤ i = - P i k P i c \cdot X ⊤ i, k \neq c

$\begin{equation} \begin{split} &\frac{\partial P_{ik}}{\partial W_c} = - \frac{e^{X_i W_k } \cdot e^{X_i W_c }}{(\sum_j e^{X_i W_j })^2} X_i^\top= -P_{ik}P_{ic}\cdot X_i^\top, \;k\ne c\\ \end{split} \end{equation}$

损失函数对 $W_c$ 求偏导：

\partial E ( W ) \partial W c = - (\partial \sum n i = 1 t i c ln P i c \partial W c + \partial \sum n i = 1 \sum k \neq c t i k ln P i k \partial W c) = - (\sum i = 1 n t i c 1 P i c \cdot (P i c - P 2 i c) \cdot X ⊤ i + \sum i = 1 n \sum k \neq c t i k 1 P i k (- P i k P i c) \cdot X ⊤ i) = - (\sum i = 1 n t i c (1 - P i c) - \sum i = 1 n \sum k \neq c t i k P i c) \cdot X ⊤ i = - (\sum i = 1 n t i c - \sum i = 1 n \sum k = 1 K t i k P i c) \cdot X ⊤ i, 已 知 \sum k = 1 K t i k = 1 = - (\sum i = 1 n t i c - \sum i = 1 n P i c) \cdot X ⊤ i = \sum i = 1 n (P i c - t i c) \cdot X ⊤ i

$\begin{equation} \begin{split} &\frac{\partial E(W)}{\partial W_c} = -(\frac{\partial \sum_{i=1}^n t_{ic}\ln P_{ic}}{\partial W_c}+\frac{\partial \sum_{i=1}^n \sum_{k\ne c} t_{ik}\ln P_{ik}}{\partial W_c})\\ &= - (\sum_{i=1}^n t_{ic} \frac{1}{P_{ic}}\cdot (P_{ic} - P_{ic}^2)\cdot X_i^\top + \sum_{i=1}^n \sum_{k\ne c} t_{ik} \frac{1}{P_{ik}}(-P_{ik}P_{ic})\cdot X_i^\top)\\ &=- (\sum_{i=1}^n t_{ic} (1 - P_{ic}) - \sum_{i=1}^n \sum_{k\ne c} t_{ik} P_{ic})\cdot X_i^\top\\ &=- (\sum_{i=1}^n t_{ic} - \sum_{i=1}^n \sum_{k=1}^K t_{ik} P_{ic})\cdot X_i^\top ,\;\; \text{已知}\sum_{k=1}^K t_{ik} = 1\\ &=- (\sum_{i=1}^n t_{ic} - \sum_{i=1}^n P_{ic})\cdot X_i^\top\\ &=\sum_{i=1}^n(P_{ic} - t_{ic})\cdot X_i^\top\\ \end{split} \end{equation}$

有了偏导之后，就可以用梯度下降算法优化参数 $W$ 。也可以用BFGS或L-BFGS等算法进行优化。

和二分类问题的比较：

1、在构造损失函数时，多分类问题和二分类问题都是用的负对数似然作为目标函数。

2、优化方法相同，都可以用梯度下降算法寻找局部最优值。并且两种情况下偏导的结果也是惊人的一致，主要还是由于Softmax和Logistic函数本质上是一致的。

3、Softmax函数：

P (Y = i | x, W) = s o f t m a x i (x W) = e x W i \sum j e x W j = e x W i \sum j \neq i e x W j + e x W i = 1 \sum j \neq i e x W j e x W i + 1 = 1 ( \sum j \neq i e x W j ) e - x W i + 1

$\begin{equation} \begin{split} &P(Y=i|x, W) = softmax_i (xW) = \frac{e^{xW_i}}{\sum_j e^{xW_j}}\\ &= \frac{e^{xW_i}}{\sum_{j\ne i} e^{xW_j} + e^{xW_i}} = \frac{1}{\frac{\sum_{j\ne i} e^{xW_j}}{e^{xW_i}} + 1} = \frac{1}{(\sum_{j\ne i} e^{xW_j})e^{-xW_i} + 1}\\ \end{split} \end{equation}$
当

∑j≠iexWj=1 $\sum_{j\ne i} e^{xW_j} = 1$ 时

s o f t m a x i (x W) = 1 1 e x W i + 1 = 1 e - x W i + 1

$\begin{equation} softmax_i (xW) = \frac{1}{\frac{1}{e^{xW_i}} + 1} = \frac{1}{e^{-xW_i} + 1} \end{equation}$
所以Softmax和Logistic函数主要的区别就在于Logistic函数固定为常数1，而Softmax是一个实数