【机器学习】Softmax Regression简介

最新推荐文章于 2024-08-28 11:17:46 发布

tracer9

最新推荐文章于 2024-08-28 11:17:46 发布

阅读量5.3k

点赞数 6

分类专栏：机器学习文章标签：机器学习数据挖掘 softmax 大数据

本文链接：https://blog.csdn.net/tracer9/article/details/50412836

版权

机器学习专栏收录该内容

6 篇文章 1 订阅

订阅专栏

本文我们来介绍Softmax Regression。

本文目录如下：

Motivation
Introduction
Equation
Reference
Appendix
- 1 Cost function求梯度

1. Motivation

Softmax Regression主要应用于多标签分类，它的主要作用是将多个标量映射为一个概率分布。

N features \to K labels

$\textrm{N features} \rightarrow \textrm{K labels }$

2. Introduction

为了更好地阐述Softmax，让我们首先来回顾一下Logistic regression。在Logistic regression中，我们要解决的实际上是一个二分类问题：

y (i) \in {0, 1}

$y(i)\in \{0,1\}$

现在，假设我们有m个带标签的训练数据：

(x (1), y (1)), . . ., (x (m), y (m))

${(x(1),y(1)),...,(x(m),y(m))}$

其中， $x(i)\in \mathfrak{R}^n$ ， $y(i)\in \{0,1\}$ 。那么我们有如下结论，首先是我们的假设：

h θ (x) = 1 1 + exp ( - θ T x )

$h_{\theta} (x)= \frac{1}{1+\exp(−\theta^Tx)}$

可以将输入数据映射为一个0-1分布，得到概率的估计公式：

P (y = 0 | x; θ) = 1 1 + exp ( - θ T x )

$P(y=0|x;\theta)=\frac{1}{ 1+\exp(−\theta^Tx) }$

P (y = 1 | x; θ) = exp ( - θ T x ) 1 + exp ( - θ T x )

$P(y=1|x;\theta)=\frac{ \exp(−\theta^Tx) }{ 1+\exp(−\theta^Tx) }$

接下来，就来到我们熟悉的步骤了：设定cost function，梯度下降法求参数。为了明确起见，我们把cost function也罗列如下：

J (θ) = - [\sum i = 1 m y (i) log h θ (x (i)) + (1 - y (i)) log (1 - h θ (x (i)))]

$J(\theta)=−\left[\sum_{i=1}^{m}y^{(i)}\log h_\theta( x^{(i)} ) +( 1-y^{(i)} )\log ( 1-h_\theta( x^{(i)} ) )\right]$

θ = a r g m a x θ J (θ)

$\theta=\mathop{ \mathrm{argmax} }_\theta J(\theta)$

其中参数 $\theta \in \mathfrak{R}^n$ 。

现在明白了吧？在logistic regression中，由于我们面对的是一个二分类问题，所以我们可以将输入映射为这样的概率分布，通过最大似然准则，求解参数。

现在我们希望在多标签分类问题中，也能够应用类似的框架求解问题。Softmax Regression应运而生！

3. Equation

3.1. Restatement

问题重述如下，给定一组训练数据集 $\left\{\left( x^{(1)},y^{(1)} \right) , ... , \left( x^{(m)},y^{(m)} \right)\right\}$ 。此时，输入数据仍为 $x^{(i)}\in \mathfrak{R}^n$ 。而输出标签从0,1两类，变成了 $K$ 类： $y^{(i)}\in \{0 ,..., K\}$ 。

3.2. Probability Estimation

我们要做首先就是估计这 $K$ 类中每一类的输出概率。因此，我们要输出的是一个K维的向量，向量中的每一个值即为该类的输出概率。下面我们直接给出结果：

h θ (x) = ⎡ ⎣ ⎢ ⎢ P (y = 1 | x; θ) ⋮ P (y = K | x; θ) ⎤ ⎦ ⎥ ⎥ = 1 \sum K j = 1 exp ( - θ ( j ) T x ) \cdot ⎡ ⎣ ⎢ ⎢ ⎢ exp (- θ (1) T x) ⋮ exp (- θ (K) T x) ⎤ ⎦ ⎥ ⎥ ⎥

$h_{\theta} (x) = \begin{bmatrix} P(y=1|x;\theta) \\ \vdots \\ P(y=K|x;\theta) \end{bmatrix} = \frac{1}{ \sum_{j=1}^{K}\exp(−\theta^{(j)T}x) } \cdot \begin{bmatrix} \exp(−\theta^{(1)T}x) \\ \vdots \\ \exp(−\theta^{(K)T}x) \end{bmatrix}$

这里面，我们将之前的 $\theta \in \mathfrak{R}^n$ 扩展到了 $K$ 维，即我们有： $\theta^{(1)} ,..., \theta^{(K)} \in \mathfrak{R}^n$ 。为了简洁起见（同时也是为了我们之后的矩阵化编程方便起见，我们这里仍使用 $\theta$ 表示所有的参数。我们使用一个n-by-K的矩阵表示所有的参数，如下所示：

θ = ⎡ ⎣ ⎢ | θ (1) | | θ (2) | \dots \dots \dots | θ (K) | ⎤ ⎦ ⎥

$\theta = \begin{bmatrix} \vert & \vert & \cdots & \vert \\ \theta^{(1)} & \theta^{(2)} & \cdots & \theta^{(K)} \\ \vert & \vert & \cdots & \vert \end{bmatrix}$

此时参数矩阵： $\theta \in \mathfrak{R}^{n\times K}$

这个时候，我们已经有了hypothesis function，接下来就可以进一步地向前推进了，下面让我们来关注cost function吧。

3.3. Cost Function

在给出cost function之前，首先介绍一下指示函数（indicator function）。所谓的指示函数其实和我们学习C语言中的if语句有点像。 $1\{ \textbf{true statement} \}=1$ , $1\{ \textbf{false statement} \}=0$ 。有了这个帮手，我们就可以简介地描述cost function啦。

J (θ) = - [\sum i = 1 m \sum K = 1 K 1 {y (i) = k} \cdot log P (y = K | x; θ)] = - ⎡ ⎣ \sum i = 1 m \sum K = 1 K 1 {y (i) = k} \cdot log exp ( - θ ( k ) T x ) \sum K j = 1 exp ( - θ ( j ) T x ) ⎤ ⎦

$\begin{aligned} J(\theta) &=−\left[ \sum_{i=1}^{m}\sum_{K=1}^{K} 1\left\{y^{(i)}=k\right\} \cdot \log P(y=K|x;\theta) \right] \\ &=−\left[ \sum_{i=1}^{m}\sum_{K=1}^{K} 1\left\{y^{(i)}=k\right\} \cdot \log \frac{\exp(−\theta^{(k)T}x)}{ \sum_{j=1}^{K}\exp(−\theta^{(j)T}x) } \right] \end{aligned}$

很遗憾，与Linear Regression不同，我们并不能使用解析解来求得参数。此处，我们使用批梯度下降法（Batch Gradient Descent，BGD）方法来进行求解：

θ (i) : = θ (i) - \nabla θ (i) J (θ)

$\theta^{(i)} := \theta^{(i)} - \nabla_{ \theta^{(i)} } J(\theta)$

在这里，每一个 $\theta^{(i)}$ 都是一个n维的向量。

对于 $\nabla_{ \theta^{(i)} } J(\theta)$ 的计算是比较的复杂的，这里我们不加证明地直接给出，如果希望了解推导过程的同学可以查看附录（Appendix）部分。

\nabla θ (k) J (θ) = - \sum i = 1 m [x (i) (1 {y (i) = k} - P (y (i) = k | x; θ))]

$\nabla_{ \theta^{(k)} } J(\theta) = -\sum_{i=1}^{m} \left[ x^{(i)} \left( 1\left\{y^{(i)}=k\right\} - P(y^{(i)}=k|x;\theta) \right) \right]$

此时，所有我们需要的内容皆已具备，只要有足够多的分类数据，我们就可以使用梯度下降法训练自己的多标签分类数据啦！

我们将算法重述如下：

Algorithm1. Softmax Regression

输入：训练数据 $\left\{\left( x^{(1)},y^{(1)} \right) , ... , \left( x^{(m)},y^{(m)} \right)\right\}$ 。其中， $x^{(i)}\in \mathfrak{R}^n$ ， $y^{(i)}\in \{0 ,..., K\}$ 。

输出：估计标签值 $\hat y^{(i)}$ 。

(1) 初始化参数 $\theta^{(i)}$ ，对 $i \in \{1,2,...,K\}$ ， $\theta^{(k)}=0^{n \times 1}$ 。

(2) 对 $i=1,...,\# \textrm{training}$ ：

对 $j=1,...,K$ ：

设若 $y^{(j)}=k，k \in \{1,...,K\}$ ，更新 $\theta^{(k)}$ :

θ (k) : = θ (k) - \nabla θ (k) J (θ)

$\theta^{(k)} := \theta^{(k)} - \nabla_{ \theta^{(k)} } J(\theta)$

其中， $\nabla_{ \theta^{(k)} } J(\theta)$ 的计算方法如下：

\nabla θ (k) J (θ) = - \sum i = 1 m [x (i) (1 {y (i) = k} - P (y (i) = k | x; θ))]

$\nabla_{ \theta^{(k)} } J(\theta) = -\sum_{i=1}^{m} \left[ x^{(i)} \left( 1\left\{y^{(i)}=k\right\} - P(y^{(i)}=k|x;\theta) \right) \right]$

(3) 如果不是所有的 $\theta^{(k)}$ 都收敛，重复步骤2。

4. Reference

[1] 李航. 统计学习方法[J]. 2012.

[2] Andrew Ng, et al. Softmax Regression. UFLDL Tutorial. http://ufldl.stanford.edu/tutorial/

5. Appendix

5.1. Cost function求梯度

问题描述如下，给定cost function：

J (θ) = - ⎡ ⎣ \sum i = 1 m \sum K = 1 K 1 {y (i) = k} \cdot log exp ( - θ ( k ) T x ) \sum K j = 1 exp ( - θ ( j ) T x ) ⎤ ⎦

$J(\theta) =−\left[ \sum_{i=1}^{m}\sum_{K=1}^{K} \mathbf{1}\left\{y^{(i)}=k\right\} \cdot \log \frac{\exp(−\theta^{(k)T}x)}{ \sum_{j=1}^{K}\exp(−\theta^{(j)T}x) } \right]$

试求解： $\nabla_{ \theta^{(a)} } J(\theta)$ ，这里解释一下，由于我们在原有的cost function中已经使用了 $i，j，k$ 的下标，此处我们使用a作为求梯度时的自变量，即 $\theta^{(a)}$ 。当我们已经求梯度完毕后，再将这个临时变量a替换成为k。二者只是一个标号的不同。

首先分析一下，在cost function中可能涉及到 $\theta^{(a)}$ 就是右边log函数中的分子，分母。只有当 $k=a$ 的时候，分子才会对求梯度产生影响，而无论k取何值时，分母都一定会对求导产生影响。注意到最外层的 $−\sum_{m}^{i=1}$ 这一项实际上对求导并不产生任何影响，真正产生影响的是：

L (θ) = \sum K = 1 K 1 {y (i) = k} \cdot log exp ( - θ ( k ) T x ) \sum K j = 1 exp ( - θ ( j ) T x )

$\mathcal{L}(\theta)= \sum_{K=1}^{K} \mathbf{1}\left\{y^{(i)}=k\right\} \cdot \log \frac{\exp(−\theta^{(k)T}x)}{ \sum_{j=1}^{K}\exp(−\theta^{(j)T}x) }$

因此我们有：

L (θ) = ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ 1 {y (i) = k} \cdot log exp ( - θ ( k ) T x ) \sum K j = 1 exp ( - θ ( j ) T x ) 1 {y (i) = a} \cdot log exp ( - θ ( a ) T x ) \sum K j = 1 exp ( - θ ( j ) T x ) k = 1, . . ., a - 1, a + 1, . . ., K k = a

$\mathcal{L}(\theta)= \left\{ \begin{eqnarray} \mathbf{1}\left\{y^{(i)}=k\right\} \cdot \log \frac{\exp(−\theta^{(k)T}x)}{ \sum_{j=1}^{K}\exp(−\theta^{(j)T}x) } && k=1 ,...,a-1,a+1,...,K \\ \mathbf{1}\left\{y^{(i)}=a\right\} \cdot \log \frac{\exp(−\theta^{(a)T}x)}{ \sum_{j=1}^{K}\exp(−\theta^{(j)T}x) } && k=a \end{eqnarray} \right.$

对于上述两式，我们使用 $\mathcal{L}_1(\theta)$ ， $\mathcal{L}_2(\theta)$ 来指代。

首先我们对于 $\mathcal{L}_1(\theta)$ 进行求导：

\nabla θ (a) L 1 (θ) = = = = = 1 {y (i) = k} \cdot \partial \partial θ ( a ) log exp ( - θ ( k ) T x ( i ) ) \sum K j = 1 exp ( - θ ( j ) T x ( i ) ) 1 {y (i) = k} \cdot \sum K j = 1 exp ( - θ ( j ) T x ( i ) ) exp ( - θ ( k ) T x ( i ) ) \cdot \partial \partial θ ( a ) exp ( - θ ( k ) T x ( i ) ) \sum K j = 1 exp ( - θ ( j ) T x ( i ) ) 1 {y (i) = k} \cdot \sum K j = 1 exp ( - θ ( j ) T x ( i ) ) exp ( - θ ( k ) T x ( i ) ) \cdot ⎛ ⎝ ⎜ ⎜ - exp ( - θ ( k ) T x ( i ) ) ( \sum K j = 1 exp ( - θ ( j ) T x ( i ) ) ) 2 ⎞ ⎠ ⎟ ⎟ \cdot x \cdot exp (- θ (a) T x (i)) 1 {y (i) = k} \cdot ⎛ ⎝ ⎜ - exp ( - θ ( a ) T x ( i ) ) ( \sum K j = 1 exp ( - θ ( j ) T x ( i ) ) ) ⎞ ⎠ ⎟ \cdot x (i) 1 {y (i) = k} \cdot x (i) \cdot (- P (y (i) = k | x; θ))

$\begin{eqnarray}\nabla_{ \theta^{(a)} } \mathcal{L}_1(\theta) &=& \mathbf{1}\left\{y^{(i)}=k\right\} \cdot \frac{\partial}{\partial \theta^{(a)}} \log \frac{\exp\left(−\theta^{(k)T}x^{(i)}\right)}{ \sum_{j=1}^{K}\exp\left(−\theta^{(j)T}x^{(i)}\right) } \\ &=& \mathbf{1}\left\{y^{(i)}=k\right\} \cdot \frac{ \sum_{j=1}^{K}\exp\left(−\theta^{(j)T}x^{(i)}\right) }{\exp\left(−\theta^{(k)T}x^{(i)}\right)} \cdot \frac{\partial}{\partial \theta^{(a)}} \frac{\exp\left(−\theta^{(k)T}x^{(i)}\right)}{ \sum_{j=1}^{K}\exp\left(−\theta^{(j)T}x^{(i)}\right) } \\ &=& \mathbf{1}\left\{y^{(i)}=k\right\} \cdot \frac{ \sum_{j=1}^{K}\exp\left(−\theta^{(j)T}x^{(i)}\right) }{\exp\left(−\theta^{(k)T}x^{(i)}\right)} \cdot \left( -\frac{ \exp\left(−\theta^{(k)T}x^{(i)}\right) }{ \left( \sum_{j=1}^{K}\exp\left(−\theta^{(j)T}x^{(i)}\right) \right)^2 } \right) \cdot x \cdot \exp\left(−\theta^{(a)T}x^{(i)} \right) \\ &=& \mathbf{1}\left\{y^{(i)}=k\right\} \cdot \left( -\frac{ \exp\left(−\theta^{(a)T}x^{(i)}\right) }{ \left( \sum_{j=1}^{K}\exp\left(−\theta^{(j)T}x^{(i)}\right) \right) } \right) \cdot x^{(i)} \\ &=& \mathbf{1}\left\{y^{(i)}=k\right\} \cdot x^{(i)} \cdot \left( - P(y^{(i)}=k|x;\theta) \right) \end{eqnarray}$

看上去有点儿复杂？是吧。其实就是我们在高中时候学过的很简单的“链式求导”，斌斌在这里强烈建议您拿出一张草稿纸，自己手动推导一下，你会很快发现，看上去有些可怖的公式推导，居然如此简单！

下面我们再来推导 $\nabla_{ \theta^{(a)} } \mathcal{L}_2(\theta)$ ，这个推导可能会比上面的推导更复杂一下，因为我们要同时顾及到分子分母，一起来看吧：

\nabla θ (a) L 2 (θ) = = = = = 1 {y (i) = k} \cdot \partial \partial θ ( a ) log exp ( - θ ( a ) T x ( i ) ) \sum K j = 1 exp ( - θ ( j ) T x ( i ) ) 1 {y (i) = k} \cdot \sum K j = 1 exp ( - θ ( j ) T x ( i ) ) exp ( - θ ( a ) T x ( i ) ) \cdot \partial \partial θ ( a ) exp ( - θ ( a ) T x ( i ) ) \sum K j = 1 exp ( - θ ( j ) T x ( i ) ) 1 {y (i) = k} \cdot \sum K j = 1 exp ( - θ ( j ) T x ( i ) ) exp ( - θ ( a ) T x ( i ) ) \cdot x ( i ) exp ( - θ ( a ) T x ( i ) ) \sum K j = 1 exp ( - θ ( j ) T x ( i ) ) - x ( i ) exp ( - θ ( a ) T x ( i ) ) 2 ( \sum K j = 1 exp ( - θ ( j ) T x ( i ) ) ) 2 1 {y (i) = k} \cdot x ( i ) \cdot \sum K j = 1 exp ( - θ ( j ) T x ( i ) ) - x ( i ) exp ( - θ ( a ) T x ( i ) ) \sum K j = 1 exp ( - θ ( j ) T x ( i ) ) 1 {y (i) = k} \cdot x (i) \cdot (1 - P (y (i) = a | x (i); θ))

$\begin{eqnarray}\nabla_{ \theta^{(a)} } \mathcal{L}_2(\theta) &=& \mathbf{1}\left\{y^{(i)}=k\right\} \cdot \frac{\partial}{\partial \theta^{(a)}} \log \frac{\exp\left(−\theta^{(a)T}x^{(i)}\right)}{ \sum_{j=1}^{K}\exp\left(−\theta^{(j)T}x^{(i)}\right) }\\ &=& \mathbf{1}\left\{y^{(i)}=k\right\} \cdot \frac{ \sum_{j=1}^{K}\exp\left(−\theta^{(j)T}x^{(i)}\right) }{\exp\left(−\theta^{(a)T}x^{(i)}\right)} \cdot \frac{\partial}{\partial \theta^{(a)}} \frac{\exp\left(−\theta^{(a)T}x^{(i)}\right)}{ \sum_{j=1}^{K}\exp\left(−\theta^{(j)T}x^{(i)}\right) } \\ &=& \mathbf{1}\left\{y^{(i)}=k\right\} \cdot \frac{ \sum_{j=1}^{K}\exp\left(−\theta^{(j)T}x^{(i)}\right) }{\exp\left(−\theta^{(a)T}x^{(i)}\right)} \cdot \frac{ x^{(i)} \exp\left(−\theta^{(a)T}x^{(i)}\right) \sum_{j=1}^{K}\exp\left(−\theta^{(j)T}x^{(i)}\right) -x^{(i)} \exp\left(−\theta^{(a)T}x^{(i)}\right)^2} { \left( \sum_{j=1}^{K}\exp\left(−\theta^{(j)T}x^{(i)}\right) \right)^2 } \\ &=& \mathbf{1}\left\{y^{(i)}=k\right\} \cdot \frac{ x^{(i)} \cdot \sum_{j=1}^{K}\exp\left(−\theta^{(j)T}x^{(i)}\right) -x^{(i)} \exp\left(−\theta^{(a)T}x^{(i)}\right) } { \sum_{j=1}^{K}\exp\left(−\theta^{(j)T}x^{(i)}\right) } \\ &=& \mathbf{1}\left\{y^{(i)}=k\right\} \cdot x^{(i)} \cdot \left( 1- P(y^{(i)}=a|x^{(i)};\theta)\right) \end{eqnarray}$

至此，我们已经完成了对于 $\mathcal{L}_1(\theta)$ ， $\mathcal{L}_2(\theta)$ 的梯度求导，只要将这两部分进行组合即可得到最终对于cost function的梯度，还有我们一开始将 $−\sum_{m}^{i=1}$ 去掉了，千万不要忘记最后加回来哦~~~