逻辑回归解决多分类和softmax

最新推荐文章于 2024-10-04 16:16:56 发布

SZU_Hadooper

最新推荐文章于 2024-10-04 16:16:56 发布

阅读量1.7w

点赞数 3

分类专栏： machine learning

machine learning 专栏收录该内容

35 篇文章 1 订阅

订阅专栏

我们已经知道，普通的logistic回归只能针对二分类(Binary Classification)问题，要想实现多个类别的分类，我们必须要改进logistic回归，让其适应多分类问题。

关于这种改进，有两种方式可以做到。

第一种方式是直接根据每个类别，都建立一个二分类器，带有这个类别的样本标记为1，带有其他类别的样本标记为0。假如我们有 $k$ 个类别，最后我们就得到了 $k$ 个针对不同标记的普通的logistic分类器。

第二种方式是修改logistic回归的损失函数，让其适应多分类问题。这个损失函数不再笼统地只考虑二分类非1就0的损失，而是具体考虑每个样本标记的损失。这种方法叫做softmax回归，即logistic回归的多分类版本。

我们首先简单介绍第一种方式。

对于二分类问题，我们只需要一个分类器即可，但是对于多分类问题，我们需要多个分类器才行。假如给定数据集 $\mathbf{X} \in \mathbb {R}^{m\times n}$ ，它们的标记 $\mathbf{Y} \in \mathbb{R}^k$ ，即这些样本有 $k$ 个不同的类别。

我们挑选出标记为 $c(c\leq k)$ 的样本，将挑选出来的带有标记 $c$ 的样本的标记置为1，将剩下的不带有标记 $c$ 的样本的标记置为0。然后就用这些数据训练出一个分类器，我们得到 $h_c(x)$ （表示针对标记 $c$ 的logistic分类函数）。

按照上面的步骤，我们可以得到 $k$ 个不同的分类器。针对一个测试样本，我们需要找到这 $k$ 个分类函数输出值最大的那一个，即为测试样本的标记：

$\arg \underset{c}{\max}h_c(x)\ \ \ c=1,2,\cdots,k$

下面我们介绍softmax回归。

对于有 $k$ 个标记的分类问题，分类函数是下面这样：

$h_{\theta}(x^{(i)})=\begin{bmatrix} p(y^{(i)}=1|x^{(i)},\theta)\\ p(y^{(i)}=2|x^{(i)},\theta)\\ \vdots\\ p(y^{(i)}=k|x^{(i)},\theta) \end{bmatrix}=\frac{1}{\sum_{c=1}^ke^{\theta^T_cx^{(i)}}}\begin{bmatrix} e^{\theta_1^Tx^{(i)}}\\ e^{\theta_2^Tx^{(i)}}\\ \vdots\\ e^{\theta_k^Tx^{(i)}} \end{bmatrix}$

在这里，我们将上式的所有的 $\theta_1,\theta_2,\cdots,\theta_k$ 组合起来，用矩阵 $\mathbf{\theta}$ 来表示，即：

$\theta = \begin{bmatrix} \theta_1^T\\ \theta_2^T\\ \vdots\\ \theta_k^T \end{bmatrix}$

这时候，softmax回归算法的代价函数如下所示（其中 $\text{sign}(expression\ is\ true)=1$ ）：

$J(\theta)=-\sum_{i=1}^m\sum_{c=1}^{k}\text{sign}(y^{(i)}=c)\log p(y^{(i)}=c|x^{(i)},\theta)=-\sum_{i=1}^m\sum_{c=1}^{k}\text{sign}(y^{(i)}=c)\log\frac{e^{\theta_c^Tx{(i)}}}{\sum_{l=1}^ke^{\theta_l^Tx^{(i)}}}$

很明显，上述公式是logistic回归损失函数的推广。

我们可以把logistic回归的损失函数改为如下形式：

$J(\theta)=-\sum_{i=1}^my^{(i)}\log h_{\theta}(x^{(i)})-(1-y^{(i)}(1-h_{\theta}x^{(i)}))=-\sum_{i=1}^m\sum_{c=0}^1\text{sign}(y^{(i)}=c)\log p(y^{(i)}=c|x^{(i)},\theta)$

但是，需要特别注意的是，对于 $p(y^{(i)}=c|x^{(i)},\theta)$ ，softmax回归和logistic回归的计算方式是不同的。

对于选择softmax分类器还是 $k$ 个logistic分类器，取决于所有类别之间是否互斥。所有类别之间明显互斥用softmax分类器，所有类别之间不互斥有交叉的情况下最好用 $k$ 个logistic分类器。

参考资料：

http://deeplearning.stanford.edu/wiki/index.php/Softmax_Regression

http://blog.csdn.net/u013239871/article/details/51291277

SZU_Hadooper

关注

3
点赞
踩
27

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录