Softmax回归 — Softmax Regression

最新推荐文章于 2024-10-10 23:18:01 发布

_rho

最新推荐文章于 2024-10-10 23:18:01 发布

阅读量311

点赞数

分类专栏：机器学习文章标签：机器学习 Softmax回归

机器学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

之前讲过，对于二分类问题我们可以采用逻辑回归。逻辑回归通过 $\text{Logit Function}$ 将 $x^i$ 映射到 $(0, 1)$ 的一个区间，可解释为事件 $x^i$ 发生的概率 $p(x_i; \theta) = \frac {1}{1+e^{-\theta^Tx_i}}$ 。而对于多分类问题 $y^i \in \{1, 2, \dots, K\}$ ， $\text{Softmax Regression}$ 采用同样的思路，同样是将 $x^i$ 映射到 $(0 - 1)$ 的区间上，计算 $x^i$ 发生的概率。不过， $p(x_i; \theta)$ 的定义稍有不同：
$p(x_i; \theta) = Pr(y^i = k \vert x^i; \theta) = \frac {e^{{\theta^{(k)}}^T x^i}}{\sum\nolimits_{j=1}^K e^{{\theta^{(j)}}^T x^i}}$

其中，分子表示数据 $x^i$ 属于类 $k $ 的概率，分母表示其属于不同类的概率之和， $p(x_i; \theta) \in (0,1)$ 。为加快程序运行速度，在代码实现中通常会向量化上式：
$p(x_i; \theta) = \begin{bmatrix} Pr(y^i = 1 \vert x^i; \theta) \\ Pr(y^i = 2 \vert x^i; \theta) \\ \vdots \\ Pr(y^i = K \vert x^i; \theta) \end{bmatrix} = \frac {1}{\sum\nolimits_{j=1}^K e^{{\theta^{(j)}}^T x^i}} \begin{bmatrix} e^{{\theta^{(1)}}^T x^i} \\ e^{{\theta^{(2)}}^T x^i} \\ \vdots \\ e^{{\theta^{(K)}}^T x^i} \end{bmatrix}$

$\text{Softmax Regression}$ 最大似然函数为：
$L(\theta) = \prod\limits_{i=1}^m p(x_i; \theta)^{1\{y^i=k\}}$

其中， $1\{ \cdot \}$ 是指示函数， $1\{ True \} = 1; 1\{ False\} = 0$ 。对数似然函数为：
$l(\theta) = \log L(\theta) = \sum\limits_{i=1}^m 1\{ y^i=k \} \log \frac {e^{{\theta^{(k)}}^T x^i}}{\sum\nolimits_{j=1}^K e^{{\theta^{(j)}}^T x^i}}$

成本函数 $J(\theta)$ 定义为：
$J(\theta) = - l(\theta) = - \sum\limits_{i=1}^m 1\{ y^i=k \} \log \frac {e^{{\theta^{(k)}}^T x^i}}{\sum\nolimits_{j=1}^K e^{{\theta^{(j)}}^T x^i}}$

$J(\theta)$ 对 $\theta^{(k)}$ 求偏导：
$\begin{aligned} & \frac {\partial J(\theta)}{\partial \theta^{(k)}} = \frac {\partial}{\partial \theta^{(k)}} [- \sum\limits_{i=1}^m 1\{ y^i=k \} \log \frac {e^{{\theta^{(k)}}^T x^i}}{\sum\nolimits_{j=1}^K e^{{\theta^{(j)}}^T x^i}}] \\ & = \frac {\partial}{\partial \theta^{(k)}} [- \sum\limits_{i=1}^m 1\{ y^i=k \} (\log e^{{\theta^{(k)}}^T x^i} - \log {\sum\nolimits_{j=1}^K e^{{\theta^{(j)}}^T x^i}})] \\ & = - \sum\limits_{i=1}^m (1\{ y^i=k \} x^i - \frac {e^{{\theta^{(j)}}^T x^i}}{\sum\nolimits_{j=1}^K e^{{\theta^{(j)}}^T x^i}} x^i) \\ & = - \sum\limits_{i=1}^m x^i(1\{ y^i=k \} - \frac {e^{{\theta^{(j)}}^T x^i}}{\sum\nolimits_{j=1}^K e^{{\theta^{(j)}}^T x^i}}) \\ & = - \sum\limits_{i=1}^m x^i(1\{ y^i=k \} - Pr(y^i = k \vert x^i; \theta)) \end{aligned}$