softmax函数的定义及求导

最新推荐文章于 2024-07-09 23:15:27 发布

softee

最新推荐文章于 2024-07-09 23:15:27 发布

阅读量9.7k

点赞数 3

分类专栏：心得文章标签： softmax 深度学习求导偏微分

本文链接：https://blog.csdn.net/softee/article/details/54098277

版权

心得专栏收录该内容

28 篇文章 1 订阅

订阅专栏

本文中 $(x_0, x_1, ..., x_m)$ 代表一个向量，也就是一个 $m$ 行1列的矩阵。

在监督式的深度学习中，输入通常是一个向量，用 $x$ 表示，输出 $y$ 则可以分为多种情况。

标量。 $y$ 表示输入 $x$ 属于某一类别的概率。
向量。此时输入 $x$ 可能属于多个类别。 $y=(y_0, y_1, ..., y_n)$ 。元素 $y_i$ 代表向量属于类别 $i$ 的可能性。数值越大，可能性越高。但是，深度学习模型输出的 $y_i$ 不必然是介于0和1之间的概率值， $softmax$ 函数的作用就是对向量进行归一化，生成概率值。

$softmax$ 函数的作用如下。

$s o f t m a x ((y 0, y 1, . . ., y n)) = (y 0 Σ n i = 0 y i, . . ., y n Σ n i = 0 y i)$ $softmax((y_0, y_1, ..., y_n))=(\frac{y_0}{\Sigma_{i=0}^n y_i}, ..., \frac{y_n}{\Sigma_{i=0}^n y_i})$
也就是说， $softmax$ 函数的输入是一个向量，而其输出也是一个向量，向量中的每个元素都是介于0和1之间的概率值。下面将以最简单的形式来描述 $softmax$ 函数的定义和求导问题。假设输入是包含3个元素的向量，而输出是包含2个元素的向量，也就说 $m=2, n=1$ ，如下图所示。

图中表示了从输入到输出的一个转换过程，参数有6个，可以写成一个矩阵的形式。
$θ = [w 00, w 10, w 20 w 01, w 11, w 21]$ $\theta=\left[\begin{array}\\w_{00},w_{10}, w_{20}\\w_{01},w_{11},w_{21}\end{array}\right]$ 这里把与输出向量中每个元素链接的权重组织成一行，所以共有两行。令 $\theta_0=[w_{00},w_{10}, w_{20}]$ ， $\theta_1=[w_{01},w_{11}, w_{21}]$ ，则有。
$θ = [θ 0 θ 1]$ $\theta=\left[\begin{array} \\\theta_0\\\theta_1\end{array}\right]$ 用 $h$ 来代表转换函数，则有如下式子。
$y 0 = h (θ 0, x)$ $y_0 = h(\theta_0, x)$ $y 1 = h (θ 1, x)$ $y_1 = h(\theta_1, x)$
针对这个具体例子则有。
$s o f t m a x ((y 0, y 1)) = (h ( θ 0 , x ) h ( θ 0 , x ) + h ( θ 1 , x ), h ( θ 1 , x ) h ( θ 0 , x ) + h ( θ 1 , x ))$ $softmax((y_0, y_1))=(\frac{h(\theta_0, x)}{h(\theta_0, x) + h(\theta_1, x)},\frac{h(\theta_1, x)}{h(\theta_0, x) + h(\theta_1, x)})$
为了方便书写，令 $z 0 = h ( θ 0 , x ) h ( θ 0 , x ) + h ( θ 1 , x )$ $z_0 = \frac{h(\theta_0, x)}{h(\theta_0, x) + h(\theta_1, x)}$ $z 1 = h ( θ 1 , x ) h ( θ 0 , x ) + h ( θ 1 , x )$ $z_1 = \frac{h(\theta_1, x)}{h(\theta_0, x) + h(\theta_1, x)}$ 按照对向量求导的定义，其结果应该是一个Jacobian矩阵，则对 $softmax$ 函数的求导可以写为如下形式。
$\partial s o f t m a x ( ( y 0 , y 1 ) ) \partial x = ⎡ ⎣ ⎢ ⎢ \partial z 0 \partial x \partial z 1 \partial x ⎤ ⎦ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ \partial z 0 \partial x 0 \partial z 0 \partial x 1 \partial z 0 \partial x 2 \partial z 1 \partial x 0 \partial z 1 \partial x 1 \partial z 1 \partial x 2 ⎤ ⎦ ⎥ ⎥ ⎥$ $\frac{\partial softmax((y_0, y_1))}{\partial x}=\left[\begin{array}\\ \frac{\partial z_0}{\partial x} \\\frac{\partial z_1}{\partial x}\end{array}\right]=\left[\begin{array}\\\frac{\partial z_0}{\partial x_0}\frac{\partial z_0}{\partial x_1} \frac{\partial z_0}{\partial x_2}\\\frac{\partial z_1}{\partial x_0}\frac{\partial z_1}{\partial x_1} \frac{\partial z_1}{\partial x_2}\end{array}\right]$

softee

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
softmax函数的定义及求导

softmax函数的定义及求导本文中(x0,x1,...,xm)(x_0, x_1, ..., x_m)代表一个向量，也就是一个mm行1列的矩阵。在监督式的深度学习中，输入通常是一个向量，用xx表示，输出yy则可以分为多种情况。布尔型标量。yy为0或者1表示输入xx是否属于某一类别。向量。此时输入xx可能属于多个类别。y=(y0,y1,...,yn)y=(y_0, y_1, ..., y_n)。
复制链接

扫一扫