【机器学习】逻辑斯蒂回归/逻辑回归&Softmax回归

最新推荐文章于 2024-06-01 00:19:29 发布

Ono_bing

最新推荐文章于 2024-06-01 00:19:29 发布

阅读量684

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习笔记文章标签：机器学习

本文链接：https://blog.csdn.net/Ono_bing/article/details/105240739

本文详细介绍了逻辑斯蒂回归的概念，包括其概率解释、极大似然推导和问题求解方法。同时，文章还探讨了多类分类问题，并重点讲述了Softmax回归的原理，包括其在神经网络中的应用和损失函数的推导。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

逻辑斯蒂回归/逻辑回归

线性回归的任务是预测，如果拿来做分类是这个效果：
$\bold z=\bold w^T\bold x\Rightarrow y=\begin{cases}0,&\bold z<0\\0.5,&\bold z=0\\1,&\bold z>0\end{cases}$
这个函数是不连续的，输入为零的时候有间断点，并且有扰动时分类结果并不好。

在这里可以用逻辑斯蒂函数来模拟：
$\bold z=\bold w^T\bold x\Rightarrow y=\frac{1}{1+e^{-\bold z}}$
这个函数就是 $s i g m o d$ 函数，它长这个样子
在这里插入图片描述

而 $\bold z=\bold w^T\bold x\Rightarrow y=\frac{1}{1+e^{-\bold z}}$ 也就组成了逻辑回归算法，即先对样本提取特征，然后送入sigmod函数做分类。

仔细看一下这个函数： $y=\frac{1}{1+e^{-\bold z}}$ ，这不就是上一节提到的广义线性回归的一个特例：
$\frac{y}{1-y}=\frac{\frac{1}{1+e^{-z}}}{1-\frac{1}{1+e^{-z}}}=\frac{\frac{1}{1+e^{-z}}}{\frac{e^{-z}}{1+e^{-z}}}=e^z$
两边取对数得到：
$\log{\frac{y}{1-y}}=\bold z=\bold w^T\bold x$
所以逻辑斯蒂回归也叫做对数几率回归。

逻辑斯蒂回归的概率解释

分类概率
$y=\frac{1}{1+\exp{(-\bold w^T\bold x)}}$
当 $\bold w$ 一定时，样本 $\bold x$ 属于 $y = 1$ 的后验概率可以表示为：
$p_1(\bold x;\bold w)=p(y=1|\bold x;\bold w)=\frac{\exp{(\bold w^T\bold x)}}{1+\exp{(\bold w^T\bold x)}}$
随着 $\bold z$ 的增大，y趋近于1，即正样本的分类。

样本属于 $y = 0$ 的后验概率为：
$p_0(\bold x;\bold w)=p(y=0|\bold x;\bold w)=\frac{1}{1+\exp{(\bold w^T\bold x)}}$
反之，趋向于0，为负样本。
贝叶斯决策

$\log{\frac{p(y=1|\bold x;\bold w)}{p(y=0|\bold x;\bold w)}}=\bold w^T\bold x\Rightarrow \begin{cases}\bold w^T\bold x>0&\rightarrow y=1\\\bold w^T\bold x<0&\rightarrow y=0\end{cases}$

由上式可知，当 $p (y = 1) > p (y = 0)$ 时，样本取为正样本，反之，样本取为负样本。
从生成模型和判决模型的角度来讲，逻辑斯蒂回归算法属于判决模型。

建模直接找后验概率就是判决模型。
逻辑斯蒂回归直接对分类的可能性进行建模，无需事先假设数据分布，避免数据分布假设不准确带来的问题。

不需要建模先验，也不需要建似然，和上一条判决模型是一致的。
逻辑斯蒂回归不禁输出分类类别，而且还能得到概率近似。

逻辑斯蒂回归的极大似然推导

首先假设X服从伯努利分布，即：

$y_n$	1	0
$p_n$	$p_1(\bold x_n;\bold w)$	$p_0(\bold x_n;\bold w)$

那么 $N$ 个样本的极大似然估计计算如下：
$p(\bold{x_1,x_2,\dots,x_N};\bold w)=\prod_{n=1}^N{[p_1(\bold x_n;\bold w)]^{y_n}[p_0(\bold x_n;\bold w)]^{1-y_n}}$
所以求左边的最大值就是求其负对数的最小值：
$\max_{\bold w}p(\bold{x_1,x_2,\dots,x_N};\bold w)\Leftrightarrow\min_{\bold w}[-\log p(\bold{x_1,x_2,\dots,x_N};\bold w)]$
由此可得目标函数为：
$L(\bold w)=-\log p(\bold{x_1,x_2,\dots,x_N};\bold w)$