softmax函数及其性质

本文讨论机器学习中常见的softmax函数,并推导了softmax函数的梯度,讨论了softmax函数的一些基本性质。

softmax函数定义为

hsoftmax(xi)=exp(xi)nj=1exp(xj)

可以认为是先对 x 的每个分量xi做了一个非线性变换 exp() ,再将变换后的结果归一化到区间 [0,1]

然而,上式中存在“冗余”,可以参考UFLDL中关于softmax的相关描述。

Softmax regression has an unusual property that it has a “redundant” set of parameters

这是因为 xi,i=1,2,,n 实际只有 n1 个自由变量。例如,将式中分子分母同时除以 exp(x1) 并用 xj 代替 x1xj ,得到:

hsoftmax(xi)=11+nj=2exp(xj)

sigmoid函数是softmax函数在 n=2 的一种特殊情形。取 x1=0 x2=x

hsigmoid(x)=11+exp(x)

sigmoid函数经常用于二元回归问题,而softmax则可以应用于多元回归,可以认为softmax函数是sigmoid函数的推广。

下面推导softmax函数的导数
为简化推导过程,令归一化参数 Z=nj=1exp(xj) ,则:

hxi=exp(xi)xiZZxiexp(xi)Z2=exp(xi)Zexp2(xi)Z2=exp(xi)Z(exp(xi)Z)2=h(xi)(h(xi))2

最后的结果很优雅,写成向量形式:

hx=h(x)h2(x)=h(x)(1h(x))

可以发现,这个和sigmoid函数的导数计算公式相似:

hsigmoidx=hsigmoid(1hsigmoid)

这也不难理解:前面已经说过,sigmoid函数视为softmax的一种特例,所以二者本来就应该有相似的形式。

推导出softmax函数的导数之后,对含有sigmoid函数的目标函数求导也就很容易了。

  1. J1=h
    J1x=h(x)(1h(x))
  2. J2=12h2
    J2x=h2(x)(1h(x))
  3. J3=hlog(h)
    J3x=(1+logh(x))h(x)(1h(x))
  4. J4=ylog(h)
    J4x=y(1h(x))

实际中常用的是 J3 J4

  • 5
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值