【机器学习】Softmax推导

最新推荐文章于 2023-06-14 15:46:24 发布

Chester-zZz

最新推荐文章于 2023-06-14 15:46:24 发布

阅读量484

点赞数 1

分类专栏：机器学习文章标签：机器学习 Softmax 推导

本文链接：https://blog.csdn.net/u014433413/article/details/78418402

版权

机器学习专栏收录该内容

20 篇文章 2 订阅

订阅专栏

LR可以看成是Softmax的特例。 LR主要是用于二分类，如果面临的是多分类问题，可以用Softmax。Softmax通常也是深度学习图像识别网络的最后一层。

在LR中，参数 $\theta$ 是一个向量，而在Softmax中，参数可以看成是一个矩阵。也就是每一个输出都对应着一个参数向量：

h θ (x i) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ p (y i = 1 | x i; θ) p (y i = 2 | x i; θ) ⋮ p (y i = k | x i; θ) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ = 1 \sum k j = 1 e θ T j \cdot x i ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ e θ T 1 \cdot x i e θ T 2 \cdot x i ⋮ e θ T k \cdot x i ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$h_\theta(x_{i})=\begin{bmatrix}p(y_{i}=1|x_{i};\theta)\\ p(y_{i}=2|x_{i};\theta)\\\vdots\\ p(y_{i}=k|x_{i};\theta)\\\end{bmatrix}=\frac{1}{\sum_{j=1}^k e^{\theta_j^T \cdot x_{i}}}\begin{bmatrix} e^{\theta_1^T \cdot x_{i}} \\ e^{\theta_2^T \cdot x_{i}}\\\vdots\\ e^{\theta_k^T \cdot x_{i}}\\\end{bmatrix}$

其中 k 是类别数。这里 $x_i、y_i$ 的下标表示第i个数据。 $\theta_k$ 的下标表示第k类对应的参数向量。
这样，与LR类似，将上式写在一起：

p (y i | x i; θ) = \prod j = 1 k ⎛ ⎝ e θ T j x i \sum k j = 1 e θ T j \cdot x i ⎞ ⎠ I (y i = j)

$p(y_i|x_i;\theta)=\prod_{j=1}^k \left(\frac{e^{\theta_j^Tx_i}}{\sum_{j=1}^k e^{\theta_j^T \cdot x_{i}}}\right)^{I(y_i=j)}$

I 是[0,1]的判别函数。

概率形式有了就可以写出最大似然：

L (θ) = \prod i = 1 m p (y i | x i; θ)

$L(\theta)=\prod_{i=1}^m p(y_i|x_i;\theta)$

取对数：

l (θ) = ln L (θ) = ln \prod i = 1 m p (y i | x i; θ) = ln \prod i = 1 m \prod j = 1 k ⎛ ⎝ e θ T j x i \sum k j = 1 e θ T j \cdot x i ⎞ ⎠ I (y i = j) = \sum i = 1 m \sum j = 1 k I (y i = j) ln ⎛ ⎝ e θ T j x i \sum k j = 1 e θ T j \cdot x i ⎞ ⎠ = \sum i = 1 m \sum j = 1 k I (y i = j) ⎡ ⎣ ln e θ T j x i - ln \sum j = 1 k e θ T j \cdot x i ⎤ ⎦

$\begin{split} l(\theta)=\ln L(\theta)&=\ln \prod_{i=1}^m p(y_i|x_i;\theta) \\ &=\ln \prod_{i=1}^m \prod_{j=1}^k \left(\frac{e^{\theta_j^Tx_i}}{\sum_{j=1}^k e^{\theta_j^T \cdot x_{i}}}\right)^{I(y_i=j)}\\ &=\sum_{i=1}^m \sum_{j=1}^k I(y_i=j)\ln \left(\frac{e^{\theta_j^Tx_i}}{\sum_{j=1}^k e^{\theta_j^T \cdot x_{i}}}\right) \\ &=\sum_{i=1}^m \sum_{j=1}^k I(y_i=j)\left[\ln {e^{\theta_j^Tx_i}}-\ln{\sum_{j=1}^k e^{\theta_j^T \cdot x_{i}}}\right] \end{split}$

对 $\theta_j$ 的第 $p$ 个分量 $\theta_j^p$ 求导数：

\partial l ( θ ) \partial θ p j = \sum i = 1 m ⎡ ⎣ I (y i = j) ⎡ ⎣ x p i - e θ T j \cdot x i \sum k j = 1 e θ T j \cdot x i x p i ⎤ ⎦ ⎤ ⎦ = \sum i = 1 m x p i [I (y i = j) - p (y i = j | x i; θ)]

$\begin{split} \frac{\partial l(\theta)}{\partial \theta_j^p} &= \sum_{i=1}^m\left[ I(y_i=j)\left[x_i^p-\frac{e^{\theta_j^T \cdot x_{i}}}{\sum_{j=1}^k e^{\theta_j^T \cdot x_{i}}}x_i^p\right] \right] \\ &=\sum_{i=1}^m x_i^p \Big[ I(y_i=j)-p(y_i=j|x_i;\theta) \Big] \end{split}$

之后用梯度下降法就可以了。推导的关键之处就是写出概率表示 $p(y_i|x_i;\theta)$ 。