Logistic回归与Softmax回归

最新推荐文章于 2024-04-10 08:00:00 发布

zxhohai

最新推荐文章于 2024-04-10 08:00:00 发布

阅读量1.8k

点赞数 1

分类专栏：机器学习文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/hohaizx/article/details/78332497

版权

机器学习专栏收录该内容

27 篇文章 267 订阅

订阅专栏

Logistic回归和Softmax回归属于机器学习和深度学习中比较经典和基础的两个算法，许多优秀的模型中都使用到了这两个算法。所以这周打算整理和介绍一下Logistic回归和Softmax回归。

线性回归

既然这两个算法中都有“回归”二字，因此我们有必要先复习一下回归(regression)问题。回归问题的形象表述如下，假设我们有一批带标记的样本数据 ${(x^{(1)},y^{(1)}),...,(x^{(m)},y^{(m)})\}$ ，其中 $x^{(i)}\in R^{m+1}$ 是 $m + 1$ 维特征向量( $x_0^{(i)}=1$ 表示偏置项)； $y^{(i)}\in R$ 是特征向量 $x^{(i)}$ 对应的目标值。我们期望找到一个函数： $y = h (x)$ 使得 $y^{(i)}\approx h(x^{(i)})$ 对每个样本数据都成立，这就是回归问题的目标。当然 $h (x)$ 可以选择很多种类型，从方便计算的角度，我们通常选择线性函数类
$h_\theta(x)=\sum_j\theta_jx_j=\theta^Tx$

表示我们的目标函数， $\theta$ 表示函数 $h_\theta(x)$ 依赖参数 $\theta$ ，从而得到了线性回归(Linear Regression)。为了找到最优参数 $\theta$ ，循着我们的目标，我们定义目标值 $y^{(i)}$ 与预测值 $h_\theta(x^{(i)})$ 之间的误差为损失函数，并使之最小化。通常我们采用梯度下降法，在参数上迭代寻找最优参数。
线性回归虽然简单，但是它是许多复杂算法的基础，甚至可以认为线性回归是机器学习任务的本质，比如神经网络也是对线性值的处理组合等。

Logistic回归

Logistic回归的样本数据集同样可以表示为 ${(x^{(1)},y^{(1)}),...,(x^{(m)},y^{(m)})\}$ ，其中 $x^{(i)}\in R^{m+1}$ 是 $m + 1$ 维特征向量( $x_0^{(i)}=1$ 表示偏置项)；但是 $y^{(i)}\in \{0,1\}$ 只取二值。因此Logistic回归是针对二分类问题的算法。因此我们需要对目标函数 $y=h_\theta(x)$ 稍作修改，将预测值改为，预测属于“1”类或“0”类的概率。
$p(y=1|x)=h_\theta(x)=\frac{1}{1+exp(-\theta^Tx)}=\sigma(\theta^Tx)\\ p(y=0|x)=1-p(y=1|x)=1-h_\theta(x)$

可以看到Logistic回归只是在线性回归的结果值外面套了一层Sigmoid函数，将 $\theta^Tx$ 的值压缩到[0,1]区间，将其解释为概率(并非真正的随机性概率)。因此我们希望选择的参数 $\theta$ ，当样本 $x$ 属于类“1”时， $p(y=1|x)=h_\theta(x)$ 尽可能大；当样本 $x$ 属于类“0”时， $p(y=0|x)=1-h_\theta(x)$ 尽可能大。
观察上面的两个概率函数，我们可以将其更加简洁的表示为一个函数：
$p(y|x;\theta)=(h_\theta(x))^y\centerdot(1-h_\theta(x))^{1-y}$

所以当我们有我们有 $m$ 个相互独立的训练样本时，我们期望 $m$ 个样本的概率预测值的连乘积尽可能大，我们称这个函数为似然函数 $L(\theta)$
$L(\theta)=\Pi_{i=1}^mp(y^{(i)}|x^{(i)};\theta)=\Pi_{i=1}^m(h_\theta(x^{(i)}))^{y^{(i)}}\centerdot(1-h_\theta(x^{(i)}))^{1-y^{(i)}}$

似然函数的并不易求解，通常我们在其外面套一个单调递减的函数 $- l o g (x)$ ，当 $-log(L(\theta))$ 取得极小值时， $L(\theta)$ 同时就取得了极大值。我们称这个此时的目标函数为负对数似然函数 $J(\theta)$
$J(\theta)=-log(L(\theta))=-\sum_{i=1}^m\{y^{(i)}log(h_\theta(x^{(i)}))+(1-y^{(i)})log(1-h_\theta(x^{(i)}))\}$

同样我们可以利用梯度下降算法来迭代寻找最佳参数 $\theta$ 。

Softmax回归

Softmax也是用来解决分类问题的，不过Softmax是用来解决多分类问题的(分类类别多于二类)。所以Softmax回归的样本数据集同样可以表示为 ${(x^{(1)},y^{(1)}),...,(x^{(m)},y^{(m)})\}$ ，其中 $x^{(i)}\in R^m$ 是 $m$ 维特征向量；但是 $y^{(i)}\in \{1,2,...,K\}$ 有 $k$ 种类别取值可能。
因此当给定一个 $x^{(i)}$ 时，我们想计算出 $y^{(i)}$ 属于每一个类别 $j$ 的概率 $p(y^{(i)}=j|x;\theta)$ ，因此我们需要 $k$ 个线性回归函数并将其值压缩到区间[0,1]，所以此时的 $h_\theta(x)$ 输出是一个 $k$ 维向量(向量所有元素之和为1)。具体的，我们可以将 $h_\theta(x)$ 表示如下：
$h_\theta(x)= \left[ \begin{matrix} p(y=1|x;\theta)\\ p(y=2|x;\theta)\\ \vdots\\ p(y=K|x;\theta) \end{matrix} \right] =\frac{1}{\sum_{j=1}^Kexp(\theta_j^T(x))} \left[ \begin{matrix} exp(\theta_1^T(x))\\ exp(\theta_2^T(x))\\ \vdots\\ exp(\theta_K^T(x)) \end{matrix} \right]$

其中， $\theta_j\in R^{n+1}(j=1,2,...,K)$ 表示每一个线性回归函数的参数。 $\frac{1}{\sum_{j=1}^Kexp(\theta_j^T(x))}$ 用来对概率分布进行归一化，使得概率之和等于1。
为了将 $h_\theta(x)$ 的形式与上面的线性回归和Logistic回归统一，我们可以将 $\theta$ 写成矩阵的形式：
$\theta= \left[ \begin{matrix} \big| & \big| & \big| & \big|\\ \theta_1 & \theta_2 & \cdots & \theta_K\\ \big| & \big| & \big| & \big| \end{matrix} \right] \Rightarrow \theta^T= \left[ \begin{matrix} \verb|——| & \theta_1^T & \verb|——|\\ \verb|——| & \theta_2^T & \verb|——|\\ \verb|——| & \cdots & \verb|——|\\ \verb|——| & \theta_K^T & \verb|——| \end{matrix} \right]\\ \Downarrow\\ h_\theta(x)=softmax(\theta^Tx)$

下面需要定义softmax回归的代价函数，为了方便表述，函数记号 $1\{\cdot\}$ 表示示性函数，其取值规则如下：
$\begin{cases} 1\{表达式值为真\}=1\\ 1\{表达式值为假\}=0 \end{cases}$

同样的我们希望概率似然函数的值尽可能大
$\max_\theta \quad J(\theta)=\Pi_{i=1}^m\Pi_{k=1}^K(softmax(\theta_k^Tx^{(i)}))^{1\{y^{(i)}=k\}}$

在外面套上 $- l o g (x)$ 函数，经过化简得
$\min_\theta \quad J(\theta)=-\sum_{i=1}^m\sum_{k=1}^K1\{y^{(i)}=k\}log(softmax(\theta_k^Tx^{(i)}))$

采用梯度下降法，迭代求解 $J(\theta)$ 的极小值。
$\begin{aligned} \frac{\partial J(\theta)}{\partial \theta_{lt}} =& -\frac{\partial}{\partial\theta_{lt}} \{ \sum_{i=1}^m\sum_{k=1}^K1\{y^{(i)}=k\}log\frac{exp(\theta_l^Tx^{(i)})}{\sum_{j=1}^Kexp(\theta_j^Tx^{(i)})} \}\\ =& -\sum_{i=1}^m\sum_{k=1}^K\frac{\partial }{\partial \theta_{lt}}\bigg(1\{y^{(i)}=k\}log\frac{exp(\theta_l^Tx^{(i)})}{\sum_{j=1}^Kexp(\theta_j^Tx^{(i)})}\bigg)\\ =& -\sum_{i=1}^m\sum_{k=1}^K\frac{\partial}{\partial \theta_{lt}}\bigg(1\{y^{(i)}=k\}\big(\theta_l^Tx^{(i)}-log(\sum_{j=1}^Kexp(\theta_j^Tx^{(i)})\big)\bigg)\\ =& -\sum_{i=1}^m\sum_{k=1}^K\frac{\partial}{\partial \theta_{lt}}\big(1\{y^{(i)}=k\}(\theta_l^Tx^{(i)})\big) -\frac{\partial}{\partial \theta_{lt}}\bigg(1\{y^{(i)}=k\}log\big(\sum_{j=1}^Kexp(\theta_j^Tx^{(i)})\big)\bigg)\\ =& -\sum_{i=1}^m\bigg(\big(1\{y^{(i)}=l\}\cdot x_t^{(i)}\big)-\big(p(y^{(i)}=l|x^{(i)};\theta)\cdot x_t^{(i)}\big)\bigg)\\ =& -\sum_{i=1}^m x_t^{(i)}\cdot \big(1\{y^{(i)}=l\}-p(y^{(i)}=l|x^{(i)};\theta)\big) \end{aligned}$

将所有上式写成向量的形式有
$\nabla_{\theta_j}J(\theta)=-\sum_{i=1}^mx^{(i)}\cdot \big(1\{y^{(i)}=l\}-p(y^{(i)}=l|x^{(i)};\theta)\big)$

Softmax回归之所以要取指数，第一是为了契合max，使大的更大，这样就能从错误中快速学习；同时指数函数也方便求导。
经过上面的推导，我们可以发现，当类别数 $k = 2$ 时，Softmax回归退化为Logistic回归。所以Logistic回归是Softmax回归的一种特殊情况。
既然Softmax回归是一种多分类算法，那实际应用中，我们是选择Softmax分类器，还是构造 $k$ 个独立的Logistic二分类器呢？通常情况下，这取决于分类类别是否互斥，如果互斥，我们一般采用Softmax回归；如果分类类别不是互斥的，一般采用 $k$ 个Logistic回归分类器更为合适。这样，对于每个类别，我们的算法可以分别判断它是否属于各个类别。

参考文献

ufldl-Softmax回归

zxhohai

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Logistic回归与Softmax回归

Logistic回归与Softmax回归Logistic回归和Softmax回归属于机器学习和深度学习中比较经典和基础的两个算法，许多优秀的模型中都使用到了这两个算法。所以这周打算整理和介绍一下Logistic回归和Softmax回归。线性回归既然这两个算法中都有“回归”二字，因此我们有必要先复习一下回归(regression)问题。回归问题的形象表述如下，假设我们有一批带标记的样本数据{(x(1)
复制链接

扫一扫

专栏目录