softmax函数

最新推荐文章于 2022-12-12 22:17:19 发布

梦沁清风

最新推荐文章于 2022-12-12 22:17:19 发布

阅读量342

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

17 篇文章 3 订阅

订阅专栏

本文讨论机器学习中常见的softmax函数，并推导了softmax函数的梯度，讨论了softmax函数的一些基本性质。

softmax函数定义为

h s o f t m a x (x i) = exp ( x i ) \sum n j = 1 exp ( x j )

可以认为是先对 x 的每个分量 xi 做了一个非线性变换 exp(⋅) ，再将变换后的结果归一化到区间 [0,1] 。

然而，上式中存在“冗余”,可以参考UFLDL中关于softmax的相关描述。

Softmax regression has an unusual property that it has a “redundant” set of parameters

这是因为 xi,i=1,2,⋯,n 实际只有 n−1 个自由变量。例如，将式中分子分母同时除以 exp(x1) 并用 xj 代替 x1−xj ，得到：

h s o f t m a x (x i) = 1 1 + \sum n j = 2 exp ( - x j )

sigmoid函数是softmax函数在 n=2 的一种特殊情形。取 x1=0 ， x2=x ：

h s i g m o i d (x) = 1 1 + exp ( - x )

sigmoid函数经常用于二元回归问题，而softmax则可以应用于多元回归，可以认为softmax函数是sigmoid函数的推广。

下面推导softmax函数的导数
为简化推导过程，令归一化参数 Z=∑nj=1exp(xj) ，则：

\partial h \partial x i = \partial exp ( x i ) \partial x i Z - \partial Z \partial x i exp ( x i ) Z 2 = exp ( x i ) Z - exp 2 ( x i ) Z 2 = exp ( x i ) Z - (exp ( x i ) Z) 2 = h (x i) - (h (x i)) 2

最后的结果很优雅，写成向量形式:

\partial h \partial x = h (x) - h 2 (x) = h (x) (1 - h (x))

可以发现，这个和sigmoid函数的导数计算公式相似：

\partial h s i g m o i d \partial x = h s i g m o i d (1 - h s i g m o i d)

这也不难理解：前面已经说过，sigmoid函数视为softmax的一种特例，所以二者本来就应该有相似的形式。

推导出softmax函数的导数之后，对含有sigmoid函数的目标函数求导也就很容易了。

J1=h
$\partial J 1 \partial x = h (x) (1 - h (x))$
J2=12h2
$\partial J 2 \partial x = h 2 (x) (1 - h (x))$
J3=hlog(h)
$\partial J 3 \partial x = (1 + log h (x)) h (x) (1 - h (x))$
J4=ylog(h)
$\partial J 4 \partial x = y (1 - h (x))$

实际中常用的是 J3 和 J4

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。