机器学习笔记之线性分类——逻辑回归

静静的喝酒

于 2022-08-30 17:23:18 发布

阅读量677

点赞数 1

分类专栏：机器学习文章标签：机器学习逻辑回归线性分类交叉熵极大似然估计

本文链接：https://blog.csdn.net/qq_34758157/article/details/126601683

版权

机器学习专栏收录该内容

195 篇文章 230 订阅

订阅专栏

机器学习笔记之线性分类——逻辑回归

引言

引言

前面几节介绍了线性分类中硬分类方法，如 感知机算法、线性判别分析。并介绍了对应算法中的 策略构建思路以及最优模型参数求解过程。本节将介绍软分类中的经典算法——逻辑回归。

回顾：软分类

在线性回归基本性质介绍与线性分类中介绍过，硬分类与软分类最显著的区别是激活函数是否为连续性函数：

硬分类的代表：感知机(Perceptron)，它的模型表示如下：
$f(\mathcal W,b) = sign(\mathcal W^{T}x^{(i)} + b)(i=1,2,\cdots,N)$
其中 $s i g n$ 函数又称符号函数，它的定义表示如下：
$\begin{cases}1 \quad a \geq 0 \\ -1 \quad a < 0\end{cases}$
从图像观察，它明显是一个分段函数，无法求导；
软分类的激活函数是连续的，具有代表性的是 $s i g m o i d$ 激活函数：
$\frac{1}{1 + e^{-x}}$
$s i g m o i d$ 函数图像表示如下：

观察该图像：
首先，该函数在定义域中连续可导；
该函数值域有界——值域取值范围 $(0, 1)$ ；

针对 $s i g m o i d$ 函数取值范围的特性，我们可以将该数值结果赋予实际意义：在二分类任务中，视为针对真实标签预测的概率结果 $p$ 。即：
$\begin{cases}P(y_{pred}^{(i)} = 1) = p \\ P(y_{pred}^{(i)} = -1) = 1-p\end{cases}$
从其他角度观察， $s i g m o i d$ 函数本身就是 指数族分布的一种表达形式，在最大熵原理与softmax激活函数的关系中介绍过，数据集 $\{(x^{(i)},y^{(i)})\}_{i=1,2,\cdots,N}$ 服从经验概率分布的条件下，给定样本 $x^{(k)}$ ， $y^{(k)}$ 的概率密度函数 $p(y^{(k)} \mid x^{(k)})$ 为如下表达时，熵达到最大：
$p(y^{(k)} \mid x^{(k)}) = \frac{e^{\Lambda^{T}}f(x^{(k)},y^{(k)})}{\sum_{y^{k}=\mathcal S_{\mathcal Y}^{(l)}}e^{\Lambda^{T}f(x^{(k)},y^{(k)})}}$
其中 $\mathcal S_{\mathcal Y}^{(l)}$ 表示通过经验概率分布统计得到的某个具体的标签分布； $f (x)$ 是关于数据集合的任意函数。经过化简，我们可以得到 $S o f t ma x$ 函数的表达形式：
$Softmax(z_i) = \frac{e^{z_i}}{\sum_{j=1}^m e^{z_{j}}}$
其中 $m$ 可以理解为标签分布 $\mathcal s_{\mathcal Y}^{(l)}$ 的数量。而 $s i g m o i d$ 函数可视为 $S o f t ma x$ 函数在二分类任务中的表达：
$\begin{aligned}sigmoid(x) & = \frac{1}{1 + e^{-x}} \\ & = \frac{e^{x}}{e^{x} + 1} \\ & = \frac{e^{x}}{e^{x} + e^0} \end{aligned}$
相比于 $S o f t ma x$ 函数分母中包含的 $m$ 个元素， $s i g m o i d$ 函数分母中只包含两项元素： $e^{x},e^{0}$ ，并且 $e^{0}$ 只是一个常数。可以将其理解成只有一种分类下的 $S o f t ma x$ 函数。
虽然说只是一种分类，但仍然包含两个概率结果：一个结果可以表示为‘属于该分类的概率’；另一个结果可以表示为‘不属于该分类的概率’。

逻辑回归策略思路构建

逻辑回归(logistic Regression)是一种基于软分类思想的概率判别模型，其核心思想是直接判别后验概率 $P(\mathcal Y_{pred} = -1 \mid \mathcal X)$ 与 $P(\mathcal Y_{pred} =1 \mid \mathcal X)$ 之间的大小关系。
因此，策略构建的核心是直接围绕后验概率 $p(\mathcal Y \mid \mathcal X)$ 进行建模。

场景描述

数据集合 $Data=\{(x^{(i)},y^{(i)})\}_{i=1,2,\cdots,N}$ ，任意样本 $x^{(i)}$ 是 $p$ 维向量：
$x^{(i)} = (x_1^{(i)},x_2^{(i)},\cdots,x_p^{(i)})^{T}$
由于 $s i g m o i d$ 函数的值域性质，因此样本的二分类标签分布表示如下：
$y^{(i)} \in \{0,1\}$

推导过程

由于 $s i g m o i d$ 函数的值域在 $(0, 1)$ 内连续，其朴素思想是将线性计算结果 $\mathcal W^{T}x^{(i)}$ 经过 $s i g m o i d$ 函数映射得到一个关于预测标签分布的后验概率结果 $P(y^{(i)} \mid x^{(i)})$ 。因此，将基于不同分类的后验概率结果表示如下：
$\begin{cases}p_1 = P(y^{(i)} = 1 \mid x^{(i)}) = sigmoid(\mathcal W^{T}x^{(i)}) = \frac{1}{1 + e^{-\mathcal W^{T}x^{(i)}}} \\ p_2 = P(y^{(i)} = 0 \mid x^{(i)}) = 1 - sigmoid(\mathcal W^{T}x^{(i)}) = \frac{e^{-\mathcal W^{T}x^{(i)}}}{1 + e^{-\mathcal W^{T}x^{(i)}}}\end{cases}$

将上述两个概率合并，对后验概率结果 $P(y^{(i)} \mid x^{(i)})$ 进行表达：
该表达只是‘合并上述两个后验概率的’一个方式。
$P(y^{(i)} \mid x^{(i)}) = p_1^{y^{(i)}}p_2^{(1- y^{(i)})}$

当 $y^{(i)} = 1$ 时， $P(y^{(i)} \mid x^{(i)}) = p_1 \times {p_2}^0 = p_1$ ;
当 $y^{(i)} = 0$ 时， $P(y^{(i)} \mid x^{(i)}) = {p_1}^0 \times p_2 = p_2$ ;

由于各样本之间独立同分布，因此基于数据集合的后验概率 $P(\mathcal Y \mid \mathcal X)$ 表达结果如下：
$P(\mathcal Y \mid \mathcal X) = \prod_{i=1}^N P(y^{(i)} \mid x^{(i)})$

至此，使用极大似然估计方法对模型最优参数进行求解：
为简化运算，依然对‘log似然函数求解最大值’。
$\begin{aligned}\hat {\mathcal W} & = \mathop{\arg\max}\limits_{\mathcal W} \log P(\mathcal Y \mid \mathcal X) \\ & = \mathop{\arg\max}\limits_{\mathcal W}\log \prod_{i=1}^N P(y^{(i)} \mid x^{(i)}) \\ & = \mathop{\arg\max}\limits_{\mathcal W} \sum_{i=1}^N \log P(y^{(i)} \mid x^{(i)}) \end{aligned}$
将上述表达式带入：
$\begin{aligned}\hat {\mathcal W} & = \mathop{\arg\max}\limits_{\mathcal W} \sum_{i=1}^N \log \left(p_1^{y^{(i)}}p_2^{(1- y^{(i)})}\right) \\ & = \mathop{\arg\max}\limits_{\mathcal W} \sum_{i=1}^N \log p_1^{y^{(i)}} + \log p_2^{(1- y^{(i)})} \\ & = \mathop{\arg\max}\limits_{\mathcal W} \sum_{i=1}^N \left[y^{(i)} \log p_1 + (1 - y^{(i)})\log p_2 \right] \end{aligned}$

令 $p_1 = \frac{1}{1 + e^{-\mathcal W^{T}x^{(i)}}} = \phi(x^{(i)};\mathcal W)$ ，那么 $p_2 = 1 - \frac{1}{1 + e^{-\mathcal W^{T}x^{(i)}}} = 1 - \phi(x^{(i)};\mathcal W)$ 。将量结果带入上式：
$\hat {\mathcal W} = \mathop{\arg\max}\limits_{\mathcal W} \sum_{i=1}^N y^{(i)} \log \phi(x^{(i)};\mathcal W) + (1 - y^{(i)}) \log \left[1 - \phi(x^{(i)};\mathcal W)\right]$
提出一个负号，将上式转化为：
$\hat {\mathcal W} = \mathop{\arg\min}\limits_{\mathcal W}\left\{-\sum_{i=1}^N y^{(i)}\log \phi(x^{(i)};\mathcal W) + (1 - y^{(i)}) \log \left[1 - \phi(x^{(i)};\mathcal W)\right] \right\}$
观察大括号中的项，它就是基于二分类交叉熵的表达形式。因此可以得到如下结论：逻辑回归使用极大似然估计直接对后验概率分布 $P(\mathcal Y \mid \mathcal X)$ 求解最优模型参数 $\hat {\mathcal W}$ 等价于交叉熵损失函数求解最优模型参数。

求解过程

基于上述结论继续对最优模型参数 $\hat {\mathcal W}$ 进行求解：
将 $\phi(x^{(i)};\mathcal W)$ 展开，带回上式：
$\hat {\mathcal W} = \mathop{\arg\min}\limits_{\mathcal W}\left\{-\sum_{i=1}^N y^{(i)}\log \left[\frac{1}{1 + e^{-\mathcal W^{T}x^{(i)}}}\right] + (1 - y^{(i)}) \log \left[\frac{e^{-\mathcal W^{T}x^{(i)}}}{1 + e^{-\mathcal W^{T}x^{(i)}}}\right] \right\}$
记 $\hat {\mathcal W} = \mathop{\arg\min}\limits_{\mathcal W} \mathcal J(\mathcal W)$ ，并关于 $\mathcal J(\mathcal W)$ 对 $\mathcal W$ 进行求导：
$\begin{aligned}\frac{\partial \mathcal J(\mathcal W)}{\partial \mathcal W} & = \sum_{i=1}^N \left\{y^{(i)} \log \left[1 + e^{-\mathcal W^{T}x^{(i)}}\right] \times \left(- \frac{1}{\left(1 + e^{-\mathcal W^{T}x^{(i)}}\right)^2}\right) \times \left(-x^{(i)}e^{-\mathcal W^{T}x^{(i)}}\right) + (1 - y^{(i)}) \frac{1 + e^{-\mathcal W^{T}x^{(i)}}}{ e^{-\mathcal W^{T}x^{(i)}}}\times \frac{1}{\left(1 + e^{-\mathcal W^{T}x^{(i)}}\right)^2} \times \left(-x^{(i)}e^{-\mathcal W^{T}x^{(i)}}\right)\right\} \\ & = \sum_{i=1}^N \frac{y^{(i)} \log \left[1 + e^{-\mathcal W^{T}x^{(i)}}\right]x^{(i)}\left[e^{-\mathcal W^{T}x^{(i)}}\right]^2 + (y^{(i)} - 1)x^{(i)}e^{-\mathcal W^{T}x^{(i)}}\left(1 + e^{-\mathcal W^{T}x^{(i)}}\right)}{e^{-\mathcal W^{T}x^{(i)}}(1 + e^{-\mathcal W^{T}x^{(i)}})^2} \end{aligned}$
令 $\frac{\partial \mathcal J(\mathcal W)}{\partial \mathcal W} \triangleq 0$ ，则 分子部分等于0。即：
$\sum_{i=1}^N \left\{x^{(i)}e^{-\mathcal W^{T}x^{(i)}}\left(1 + e^{-\mathcal W^{T}x^{(i)}}\right)\left[y^{(i)}e^{-\mathcal W^{T}x^{(i)}} + y^{(i)} - 1\right]\right\} = 0$
由于 $e^{-\mathcal W^{T}x^{(i)}},\left(1 + e^{-\mathcal W^{T}x^{(i)}}\right)$ 均大于0恒成立，因此有：
$\sum_{i=1}^N \left\{x^{(i)}\left[y^{(i)}e^{-\mathcal W^{T}x^{(i)}} + y^{(i)} - 1\right]\right\} = 0$
最终求得：
$\hat {\mathcal W}^{T} = \sum_{i=1}^N -\frac{1}{x^{(i)}} \log \left[\frac{1}{y^{(i)}} - 1 \right]$
观察该式子，我们发现：它就是将样本 $x^{(i)},y^{(i)})$ 带入 $s i g m o i d$ 激活函数后 $\mathcal W$ 的求解结果：
$y^{(i)} = \frac{1}{1 + e^{-\mathcal W^{T}x^{(i)}}} \\ \to \mathcal W^{T} = -\frac{1}{x^{(i)}} \log \left[\frac{1}{y^{(i)}} - 1 \right]$