Andrew Ng Deep Learning Tutorial中Softmax分类器梯度求导过程

最新推荐文章于 2020-11-20 15:41:26 发布

Pekary

最新推荐文章于 2020-11-20 15:41:26 发布

阅读量507

点赞数

分类专栏： ML 分类文章标签：深度学习

本文链接：https://blog.csdn.net/u012576214/article/details/59140799

版权

ML 同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

分类

1 篇文章 0 订阅

订阅专栏

Andrew Ng的deep learning tutorial 中 Softmax分类器求梯度的过程省略了，他直接给出

Δ θ (k) J (θ) = - \sum i = 1 m x (i) ( (y (i) = k) - e x p ( θ ( k ) T x ( i ) \sum K j = 1 e x p ( θ ( j ) x ( i ) )) (*)

$\Delta_{\theta^{(k)}}J(\theta) = -\sum_{i=1}^m x^{(i)}\bigl(\mathcal{I} (y^{(i)} = k) - \frac{exp({\theta^{(k)T}}x^{(i)}}{\sum_{j=1}^K exp(\theta^{(j)}x^{(i)})}\bigr) \tag{*}$
但一眼无法看出结果,所以自己求了一下，几次算错。网上查的时候也有人很少有人推导或推错。折腾一下终于知道怎么推了。推导过程如下：

J (θ) = - ⎡ ⎣ ⎢ ⎢ \sum i = 1 m \sum k = 1 K  {y (i) = k} log exp ( θ ( k ) ⊤ x ( i ) ) \sum K j = 1 exp ( θ ( j ) ⊤ x ( i ) ) ⎤ ⎦ ⎥ ⎥ (1)

$\begin{align} J(\theta) = - \left[ \sum_{i=1}^{m} \sum_{k=1}^{K} \mathcal{I}\left\{y^{(i)} = k\right\} \log \frac{\exp(\theta^{(k)\top} x^{(i)})}{\sum_{j=1}^K \exp(\theta^{(j)\top} x^{(i)})}\right] \end{align} \tag{1}$

P (y (i) = k | x (i); θ) = exp ( θ ( k ) ⊤ x ( i ) ) \sum K j = 1 exp ( θ ( j ) ⊤ x ( i ) ) (2)

$P(y^{(i)} = k | x^{(i)} ; \theta) = \frac{\exp(\theta^{(k)\top} x^{(i)})}{\sum_{j=1}^K \exp(\theta^{(j)\top} x^{(i)}) } \tag{2}$

把 (2) 代 入 (1) 得 ： J (θ) = - \sum i = 1 m \sum j = 0 K  (y (i) = j) ⎡ ⎣ ⎢ ⎢ θ (j) x (i) - l o g \sum p = 1 K e x p (θ (p) T x (i)) ⎤ ⎦ ⎥ ⎥

$把(2)代入(1)得：\\ J(\theta) = -\sum_{i=1}^{m}\sum_{j=0}^K\mathcal{I}(y^{(i)} = j) \left[ \theta^{(j)}x^{(i)} - log \sum_{p=1}^{K}exp(\theta^{(p)T}x^{(i)})\right]$

可 以 看 出 ， 根 据 j 值 的 两 种 可 能 ， 所 求 得 的 导 数 不 同 。 接 下 来 分 类 讨 论 ： I . 当 j = k 时 ：

$可以看出，根据j值的两种可能，所求得的导数不同。接下来分类讨论： I. 当j= k时：$

J (θ) = - \sum i = 1 m ⎡ ⎣ ⎢ ⎢ θ (k) x (i) - l o g \sum p = 1 K e x p (θ (p) T x (i)) ⎤ ⎦ ⎥ ⎥ \partial J ( θ ) \partial θ ( k ) = - \sum i = 1 m x (i) (1 - P (y (i) = k | x (i); θ)) (3)

$J(\theta) = -\sum_{i=1}^{m}\left[ \theta^{(k)}x^{(i)} - log \sum_{p=1}^{K}exp(\theta^{(p)T}x^{(i)})\right]\\ \frac{\partial J(\theta)}{\partial \theta^{(k)}} =-\sum_{i=1}^{m}x^{(i)}\left(1-P(y^{(i)} = k | x^{(i)} ; \theta)\right) \tag{3}$

I I : 当 j \neq k 时 ， 为 使 过 程 清 晰 不 妨 设 j = q ， 则 J (θ) = - \sum i = 1 m ⎡ ⎣ ⎢ ⎢ θ (q) x (i) - l o g \sum p = 1 K e x p (θ (p) T x (i)) ⎤ ⎦ ⎥ ⎥

$II:当j\neq k时，为使过程清晰不妨设j = q，则\\ J(\theta) = -\sum_{i=1}^{m}\left[ \theta^{(q)}x^{(i)} - log \sum_{p=1}^{K}exp(\theta^{(p)T}x^{(i)})\right]$

\partial J ( θ ) \partial θ ( k ) = - \sum i = 1 m x (i) (- P (y (i) = k | x (i); θ)) (4)

$\frac{\partial J(\theta)}{\partial \theta^{(k)}} =-\sum_{i=1}^{m}x^{(i)}\left(-P(y^{(i)} = k | x^{(i)} ; \theta)\right) \tag{4}$ .
综合式(3)(4)可得出结果式(*) 。附上andrew ng softmax回归的链接 http://ufldl.stanford.edu/tutorial/supervised/SoftmaxRegression/。