softmax函数及其性质

最新推荐文章于 2025-03-18 12:10:32 发布

hijack00

最新推荐文章于 2025-03-18 12:10:32 发布

阅读量3.5k

点赞数 5

分类专栏： Machine Learning 文章标签： softmax 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hijack00/article/details/52239735

版权

Machine Learning 专栏收录该内容

4 篇文章

订阅专栏

本文讨论机器学习中常见的softmax函数，并推导了softmax函数的梯度，讨论了softmax函数的一些基本性质。

softmax函数定义为

h s o f t m a x (x i) = exp ( x i ) \sum n j = 1 exp ( x j )

$h_{softmax}(x_i) = \frac {\exp (x_{i})} {\sum_{j=1}^{n}{\exp (x_{j})}}$

可以认为是先对 $x$ 的每个分量 $x_i$ 做了一个非线性变换 $\exp{(\cdot})$ ，再将变换后的结果归一化到区间 $[0,1]$ 。

然而，上式中存在“冗余”,可以参考UFLDL中关于softmax的相关描述。

Softmax regression has an unusual property that it has a “redundant” set of parameters

这是因为 $x_{i}, i=1,2,\cdots,n$ 实际只有 $n-1$ 个自由变量。例如，将式中分子分母同时除以 $\exp(x_1)$ 并用 $x_j$ 代替 $x_1-x_j$ ，得到：

h s o f t m a x (x i) = 1 1 + \sum n j = 2 exp ( - x j )

$h_{softmax}(x_i) = \frac {1} {1+\sum_{j=2}^{n}{\exp (-x_{j})}}$

sigmoid函数是softmax函数在 $n=2$ 的一种特殊情形。取 $x_1=0$ ， $x_2=x$ ：

h s i g m o i d (x) = 1 1 + exp ( - x )

$h_{sigmoid}(x) = \frac {1}{ 1+ \exp (-x)}$

sigmoid函数经常用于二元回归问题，而softmax则可以应用于多元回归，可以认为softmax函数是sigmoid函数的推广。

下面推导softmax函数的导数
为简化推导过程，令归一化参数 $Z = {\sum_{j=1}^{n}{\exp (x_{j})}}$ ，则：

\partial h \partial x i = \partial exp ( x i ) \partial x i Z - \partial Z \partial x i exp ( x i ) Z 2 = exp ( x i ) Z - exp 2 ( x i ) Z 2 = exp ( x i ) Z - (exp ( x i ) Z) 2 = h (x i) - (h (x i)) 2

$\begin{align} \frac {\partial{h}} {\partial{x_i}} &= \frac { {\partial{\exp(x_i)} \over {\partial{x_i}}} Z - {\partial{Z} \over {\partial {x_i}}} \exp(x_i) } {Z^2} \\ &= \frac {\exp(x_i) Z - \exp^2(x_i)} {Z^2} \\ &= \frac{\exp(x_i)}{Z} - {\left(\frac{\exp(x_i)}{Z} \right)}^2 \\ &= h(x_i)- {\left( h(x_i) \right)}^2 \end{align}$

最后的结果很优雅，写成向量形式:

\partial h \partial x = h (x) - h 2 (x) = h (x) (1 - h (x))

$\frac {\partial{h}} {\partial{x}} = h(x)- h^2(x) = h(x) \left( 1-h(x) \right)$

可以发现，这个和sigmoid函数的导数计算公式相似：

\partial h s i g m o i d \partial x = h s i g m o i d (1 - h s i g m o i d)

$\frac {\partial{h_{sigmoid}}} {\partial{x}} = h_{sigmoid}\left(1- h_{sigmoid} \right)$

这也不难理解：前面已经说过，sigmoid函数视为softmax的一种特例，所以二者本来就应该有相似的形式。

推导出softmax函数的导数之后，对含有sigmoid函数的目标函数求导也就很容易了。

$J_1 = h$
$\partial J 1 \partial x = h (x) (1 - h (x))$ $\frac {\partial{J_1}} {\partial{x}} = h(x) \left( 1-h(x) \right)$
$J_2 =\frac{1}{2} h^2$
$\partial J 2 \partial x = h 2 (x) (1 - h (x))$ $\frac {\partial{J_2}} {\partial{x}} = h^2(x) \left( 1-h(x) \right)$
$J_3 = h\log(h)$
$\partial J 3 \partial x = (1 + log h (x)) h (x) (1 - h (x))$ $\frac {\partial{J_3}} {\partial{x}} = \left(1+\log{h(x)} \right) h(x) \left( 1-h(x) \right)$
$J_4 = y\log(h)$
$\partial J 4 \partial x = y (1 - h (x))$ $\frac {\partial{J_4}} {\partial{x}} = y \left(1 - h(x)\right)$

实际中常用的是 $J_3$ 和 $J_4$

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。