线性模型篇之softmax数学公式推导

最新推荐文章于 2024-07-24 17:01:51 发布

搜索与推荐Wiki

最新推荐文章于 2024-07-24 17:01:51 发布

阅读量3.7k

点赞数

分类专栏： # 机器学习文章标签： Softmax 线性模型

本文链接：https://blog.csdn.net/Gamer_gyt/article/details/89172006

版权

机器学习专栏收录该内容

47 篇文章 20 订阅

订阅专栏

转载请注明出处：http://blog.csdn.net/gamer_gyt
博主微博：http://weibo.com/234654758
Github：https://github.com/thinkgamer
公众号：搜索与推荐Wiki

个人网站：http://thinkgamer.github.io

Softmax回归也称多项（multinomial）或者多类（multi-class）的Logistic回归，是Logistic回归在多类分类问题上的推广。和逻辑回归一样属于线性模型。

SoftMax回归简介

对于多类问题，类别标签
$\in {1,2,3,...,C}$
可以用C个取值，给定一个样本x，softmax回归预测的是属于类别c的概率为(公式-1)：
$p(y=c|x)=softmax(w_c^Tx)=\frac{exp(w_c^Tx)}{\sum_{c=1}^{C}exp(w_c^Tx)}$
其中w_c是第c类的权重向量。

softmax回归的决策函数可以表示为(公式-2)：
$\hat{y}= \underset{c=1}{ \overset{C}{arg max} } \ p(y=c|x) =\underset{c=1}{ \overset{C}{arg max} } \ w_c^T x$

softMax与Logistic回归的关系：

当类别个C=2时，softMax回归的决策函数为(公式-3)：
$\hat{y} = \underset{y\in {0,1}}{ arg max } \ w_y^Tx=I(w_1^Tx - w_0^Tx >0 )=I((w_1 - w_0)^Tx >0 )$
其中I(.)是指示函数，对比二分类决策函数(公式-4)
$g(f(x,w))=sgn(f(x,w))=\begin{cases} & +1 \text{ if } f(x,w)>0 \\ & -1 \text{ if } f(x,w)<0 \end{cases}$
其中sgn表示符号函数(sign function)，可以发现两类分类中的权重向量w=w1-w0

向量表示：

公式-1用向量形式可以写为(公式-5)
$\hat{y}=softmax(W^Tx)=\frac{erp(W^Tx)}{1^Texp(W^Tx)}$
其中W=[w_1,w_2,…,w_C]是由C个类的权重向量组成的矩阵，1为全1的向量，
$\hat{y}\in R^C$
为所有类别的预测条件概率组成的向量，第c维的值是第c类的预测条件概率。

参数学习

给定N个训练样本{(x^n, y^n)},n<=N，softmax回归使用交叉熵损失函数来学习最优的参数矩阵W。

这里用C维的one-hot向量
$\in {0,1} ^C$
来表示类别标签，其向量表示为(公式-6)：
$y = [I(1=c),I(2=c),...,I(C=c)]^T$
其中I(.)为指示函数。

采用交叉熵损失函数，softmax的经验风险函数为(公式-7)：
$R(W)=-\frac{1}{N}\sum_{n=1}^{N}\sum_{c=1}^{C}y_c^nlog\hat{y}_c^n R(W)=-\frac{1}{N}\sum_{n=1}^{N} (y^n)^Tlog\hat{y}^n$
其中
$\hat{y}^n = softmax(W^Tx^n)$
为样本x^n在每个类别的后验概率。

说明：公式-7第一个式变换到第二个式是因为y_c类别中只有一个为1，其余为0，所以将第二个求和去除。

风险函数R(W)关于W的梯度为(公式-8)：
$\frac{\partial R(W)}{\partial W} = -\frac{1}{N}\sum_{n=1}^{N}x^n(y^n-\hat{y}^n)^T$

证明：

计算公式-8中的梯度，关键在于计算每个样本的损失函数
$L^n(W)=-(y^n)^Tlog\hat{y}^n$
关于参数W的梯度，其中需要用到两个导数公式为：

若y=softmax(z)，则
$\frac{\partial y}{\partial z}=diag(y)-yy^T$
若

$z=W^Tx=[w_1^Tx,w_2^Tx,...,w_C^Tx]^T$
则
$\frac{\partial y}{\partial w_c}$
为第c列为x，其余为0的矩阵。
$\frac{\partial z}{\partial w_c} = [ \frac{\partial w_1^Tx}{\partial w_c},\frac{\partial w_2^Tx}{\partial w_c},...,\frac{\partial w_C^Tx}{\partial w_c} ] =[0,0,..,x,...,0] =M_c(x)$
根据链式法则，
$L^n(W) = -(y^n)^T log\hat{y}^n$
关于w_c的偏导数为(公式-12)：
$\frac{\partial L^n(W) }{\partial w_c} = -\frac{ \partial ((y^n)^T log \hat{y}^n) }{\partial w_c}$
$-\frac{\partial z^n}{ \partial w_c } \frac{\partial \hat{y}^n}{ \partial z^n }\frac{\partial log \hat{y}^n}{ \partial \hat{y}^n } y^n$
$=-M_c(x^n)(diag(\hat{y}^n)-\hat{y}^n(\hat{y}^n)^T)(diag(\hat{y}^n))^{-1} y^n$
$=-M_c(x^n)(I-\hat{y}^n1^T)y^n$
$=-M_c(x^n)(y^n-\hat{y}^n1^Ty^n)$
$=-M_c(x^n)(y^n-\hat{y}^n)$
$=-x^n[y^n-\hat{y}^n]_c$
公式-12也可以表示为非向量形式(公式-13)：
$\frac{\partial L^n(W) }{\partial w_c} = -x^n(I(y^n=c)-\hat{y}_c^n)$
其中I(.)为指示函数，根据公式-12可以得到(公式-14)
$\frac{\partial L^n(W) }{\partial W} = -x^n(y^n-\hat{y}^n)^T$
采用梯度下降法，softmax回归的训练过程为：初始化W_0 <- 0，然后通过下式进行迭代更新。
$W_{t+1} = W_t + \alpha (\frac{1}{N} \sum_{n=1}^{N}x^n(y^n - \hat{y}_{W_t} ^ n)^T)$
其中a是学习率，
$\hat{y}_{W_t}^n$
是当参数为W_t时，softmax回归模型的输出。