机器学习系列（八）——Logistic回归解决二分类问题

最新推荐文章于 2025-03-24 16:35:15 发布

zxhohai

最新推荐文章于 2025-03-24 16:35:15 发布

阅读量9.6k

点赞数 9

分类专栏：机器学习

本文链接：https://blog.csdn.net/hohaizx/article/details/82251165

版权

机器学习专栏收录该内容

27 篇文章

订阅专栏

分类问题的本质是确定样本 $x$ 属于类别 $c_i$ 的概率 $p(C_i|x)$ 。在上周整理的分类问题中，我们采用生成式方法，借助贝叶斯公式和极大似然估计，首先计算出 $p(x|C_i)$ 和 $p(x,C_i)$ ，然后再计算出 $p(C_i|x)$ 。以二分类为例：
$p(C_1|x)=\frac{p(C_1,x)}{p(x)}=\frac{p(x|C_1)p(C_1)}{p(x)}=\frac{p(x|C_1)p(C_1)}{p(x|C_1)p(C_1)+p(x|C_2)p(C_2)} \tag 1$

如果 $p(C_1|x)>0.5$ ，则将 $x$ 归入类别 $C_1$ ；如果 $p(C_1|x)<0.5$ ，则将 $x$ 归入类别 $C_2$ 。一般情况下，我们将 $p(x|C_1)$ 和 $p(x|C_2)$ 假设成服从不同 $\mu_1$ ， $\mu_2$ 但是相同 $\Sigma$ 的高斯分布。因为高斯分布是自然界中最常见的一种分布，两个分布同用一个协方差矩阵 $\Sigma$ 有助于减少参数数目，防止过拟合。

Logistic回归推导

现在我们尝试对上述后验概率（1）进行变形
$\begin{aligned} p(C_1|x) =& \frac{p(x|C_1)p(C_1)}{p(x|C_1)p(C_1)+p(x|C_2)p(C_2)}\\ =& \frac{1}{1+\frac{p(x|C_2)p(C_2)}{p(x|C_1)p(C_1)}}\\ =& \frac{1}{1+exp(-z)}\\ =& \sigma(z) \end{aligned}$

其中 $z=ln\frac{p(x|C_1)p(C_1)}{p(x|C_2)p(C_2)}$ 。上面 $\sigma(z)=\frac{1}{1+exp(-z)}$ 正是Sigmoid函数，该函数具有良好的性质，能够将 $z$ 值转化为一个(0,1)区间内的值，并且 $z = 0$ 时， $\sigma(z)=0.5$ 。同时该函数是单调连续可微的。Sigmoid函数的图像如下图所示：
在这里插入图片描述
现在还需要确定的是 $z$ 是什么，我们继续对 $z$ 进行推导
$\begin{aligned} z =& ln\frac{p(x|C_1)p(C_1)}{p(x|C_2)p(C_2)}\\ =& ln\frac{p(x|C_1)}{p(x|C_2)}+ln\frac{p(C_1)}{p(C_2)}\\ =& ln\frac{\frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma^1|^{1/2}}exp\{-\frac{1}{2}(x-\mu^1)^T(\Sigma^1)^{-1}(x-\mu^1)\}}{\frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma^2|^{1/2}}exp\{-\frac{1}{2}(x-\mu^2)^T(\Sigma^2)^{-1}(x-\mu^2)\}}+ln\frac{\frac{N_1}{N_1+N_2}}{\frac{N_2}{N_1+N_2}}\\ =& ln\frac{|\Sigma^2|^{1/2}}{|\Sigma^1|^{1/2}}-\frac{1}{2}[(x-\mu^1)^T(\Sigma^1)^{-1}(x-\mu^1)-(x-\mu^2)^T(\Sigma^2)^{-1}(x-\mu^2)]+ln\frac{N_1}{N_2}\\ =& (\mu^1-\mu^2)^T\Sigma^{-1}x-\frac{1}{2}(\mu^1)^T\Sigma^{-1}\mu^1+\frac{1}{2}(\mu^2)^T\Sigma^{-1}\mu^2+ln\frac{N_1}{N_2}\tag {2} \end{aligned}$

其中从第四行到第五行是因为 $\Sigma^1=\Sigma^2=\Sigma$ 。再进一步观察式(2)， $(\mu^1-\mu^2)^T\Sigma^{-1}$ 的结果是一个向量，而 $x$ 后面一串是一个数字，因此 $z$ 可以写成 $z=w^Tx+b$ 的形式，所以
$p(C_1|x)=\sigma(w^Tx+b)=\frac{1}{1+e^{-(w^Tx+b)}} \tag 3$

上式（3）就称为Logistic 回归。在生成模型中，我们先求出 $\mu^1$ ， $\mu^2$ ， $\Sigma$ ，然后求出 $w$ 和 $b$ 。这样做难免显得太过复杂，我们希望直接找出 $w$ 和 $b$ 。结合机器学习的三个步骤，第一步确定一个模型 $f (x)$ ，这一步已经完成 $f(x)=p(C_1|x)$ 。如果 $p(C_1|x)>0.5$ ，则输出 $C_1$ ，否则输出 $C_2$ 。接下来需要做的是选择一个恰当的损失函数用以度量找出来的 $w$ 和 $b$ 的好坏。

Logistic回归损失函数

根据以往回归模型的经验，损失函数的选取第一反应是均方误差函数，因此我们首先尝试使用均方误差。为了使目标标签 $C_1$ ， $C_2$ 能够参与运算，我们需要将其数字化，规定：样本类别为 $C_1$ ， $\hat{y}=1$ ；样本类别为 $C_2$ ， $\hat{y}=0$ 。因此损失函数可以写作：
$L(f)=\frac{1}{2}\sum_{i=1}^m(f(x^{(i)})-\hat{y}^{(i)})^2$

对其进行求导
$\frac{\partial(f(x)-\hat{y})^2}{\partial w_i}=2(f(x)-\hat{y})f(x)(1-f(x))x_i$

具体分析，当 $\hat{y}^{(i)}=1$ ， $f(x^{(i)})=0$ ，说明模型误差还很大，距离目标很远，但上式导数 $\partial L(f(x^{(i)}))/\partial w_i=0$ ；另一种情况，当 $\hat{y}^{(i)}=0$ ， $f(x^{(i)})=1$ ，同样说明模型误差还很大，距离目标很远，但上式导数 $\partial L(f(x^{(i)}))/\partial w_i=0$ 。而所有样本或者大多数样本的导数等于零时， $\partial L/\partial w_i\approx 0$ ，参数将不再更新，但此时我们明显没有找到最佳参数，所以均方误差函数不是一个恰当的损失度量函数。

换一个角度思考，既然Logistic回归计算出了 $p(C_1|x)$ ，那么对于那些属于 $C_2$ 类别的样本其概率为 $p(C_2|x)=1-p(C_1|x)$ 。我们同样可以采用极大似然法来估计 $w$ 和 $b$ ，即希望每个样本属于其真实标记的概率越大越好。
$\begin{aligned} L(w,b) &=& ln\prod_{i=1}^mp(\hat{y}^{(i)}|x^{(i)})\\ &=& \sum_{i=1}^mlnp(\hat{y}^{(i)}|x^{(i)})\\ \tag 4 \end{aligned}$

又因为
$p(\hat{y}^{(i)}|x^{(i)})=\hat{y}^{(i)}f(x^{(i)})+(1-\hat{y}^{(i)})(1-f(x^{(i)})) \tag 5$

将式（5）带入（4），同时将最大化变成最小化，可得
$L(w,b)=-\sum_{i=1}^m[\hat{y}^{(i)}lnf(x^{(i)})+(1-\hat{y}^{(i)})ln(1-f(x^{(i)}))] \tag 6$

上式（6）称为交叉熵（cross entropy）损失函数，同样采用梯度下降法求得最优解
$w^*,b^*=arg \min_{w,b}L(w,b)$

寻找最佳参数

交叉熵损失函数虽然看起来形式复杂，但是求导并不复杂
$\frac{\partial L(w,b)}{\partial w_j}=-\sum_{i=1}^m\left(\hat{y}^{(i)}-f(x^{(i)})\right)x_j^{(i)}\\ \frac{\partial L(w,b)}{\partial b}=-\sum_{i=1}^m\left(\hat{y}^{(i)}-f(x^{(i)})\right)$

求导结果与线性回归均方误差的导数一模一样。采用梯度下降算法更新参数
$w_i=w_i-\eta\sum_{i=1}^m-\left(\hat{y}^{(i)}-f(x^{(i)})\right)x_j^{(i)}\\ b=b-\eta\sum_{i=1}^m-\left(\hat{y}^{(i)}-f(x^{(i)})\right)$