softmax代价函数的导数计算

最新推荐文章于 2023-04-15 15:10:44 发布

小胖蹄儿

最新推荐文章于 2023-04-15 15:10:44 发布

阅读量9.4k

点赞数 3

分类专栏： Deep Learning 文章标签： softmax

本文链接：https://blog.csdn.net/Cheese_pop/article/details/51264567

版权

Deep Learning 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

对于softmax的理解请参考Ufldl教程，本文仅对代价函数求导部分进行推导

softmax regression 代价函数：

J (θ) = - 1 m ⎡ ⎣ \sum i = 1 m \sum j = 1 k 1 {y (i) = j} l o g e θ T j x ( i ) \sum k l = 1 e θ T j x ( i ) ⎤ ⎦

$J(\theta)=-\frac{1}{m}\left[\sum_{i=1}^m\sum_{j=1}^k1\{y^\mathit{(i)}=j\}log\frac{e^\mathit{\theta_j^Tx^\mathit{(i)}}}{\sum_{l=1}^ke^\mathit{\theta_j^Tx^\mathit{(i)}}}\right]$
导数计算：
首先利用

logab=log(a)−log(b) $log \frac{a}{b} = log(a) - log(b)$ 将log函数内部展开：

1 {y i = j} l o g e θ T j x i \sum k l = 1 e θ T l x i = 1 {y i = j} [l o g (e θ T j x i) - l o g (\sum l = 1 k e θ T l x i)]

$1\{y_i=j\} log\frac{e^{\theta^T_j x_i}}{\sum_{l=1}^{k} e^{\theta^T_l x_i}} = 1\{y_i=j\} \left[ log(e^{\theta^T_j x_i}) - log(\sum_{l=1}^{k} e^{\theta^T_l x_i}) \right]$
接着对

θj $\theta_j$ 求导得：

1 {y i = j} [x i - e θ T j x i \sum k l = 1 e θ T l x i x i] = x i (1 {y i = j} - e θ T j x i \sum k l = 1 e θ T l x i) = x i (1 {y i = j} - p (y i = j | x i, θ)

$\begin{aligned} & 1\{y_i=j\} \left[x_i - \frac{e^{\theta^T_j x_i}}{\sum_{l=1}^{k} e^{\theta^T_l x_i}} x_i\right] \\ & = x_i \left(1\{y_i=j\} - \frac{e^{\theta^T_j x_i}}{\sum_{l=1}^{k} e^{\theta^T_l x_i}}\right) \\ & = x_i (1\{y_i=j\} - p(y_i=j | x_i, \theta) \end{aligned}$
上式中，将

log $log$ 看成

ln $ln$ ，另外，每一次的求导其实只是针对

θ $\theta$ 中的某一项

j $j$ ，所以其他的

θ $\theta$ 的非

j $j$ 项都为常数，所以求导以后都为

0 $0$ 。
这样就得到了梯度函数：

\partial J \partial θ j = - 1 n \sum i = 1 n [x i (1 {y i = j} - p (y i = j | x i, θ)]

$\frac{\partial J}{\partial \theta_j} = -\frac{1}{n} \sum_{i=1}^{n} [x_i (1\{y_i=j\} - p(y_i=j | x_i, \theta)]$

原文出处：http://zjjconan.github.io/articles/2015/04/Softmax-Regression-Matlab/

小胖蹄儿

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
4
评论
softmax代价函数的导数计算

对于softmax的理解请参考Ufldl教程，本文仅对代价函数求导部分进行推导softmax regression 代价函数： J(θ)=−1m⎡⎣∑i=1m∑j=1k1{y(i)=j}logeθTjx(i)∑kl=1eθTjx(i)⎤⎦J(\theta)=-\frac{1}{m}\left[\sum_{i=1}^m\sum_{j=1}^k1\{y^\mathit{(i)}=j\}log\fra
复制链接

扫一扫