对于softmax的理解请参考Ufldl教程,本文仅对代价函数求导部分进行推导
softmax regression 代价函数:
J(θ)=−1m⎡⎣∑i=1m∑j=1k1{y(i)=j}logeθTjx(i)∑kl=1eθTjx(i)⎤⎦
导数计算:
首先利用 logab=log(a)−log(b) 将log函数内部展开:
1{yi=j}logeθTjxi∑kl=1eθTlxi=1{yi=j}[log(eθTjxi)−log(∑l=1keθTlxi)]
接着对 θj 求导得:
1{yi=j}[xi−eθTjxi∑kl=1eθTlxixi]=xi(1{yi=j}−eθTjxi∑kl=1eθTlxi)=xi(1{yi=j}−p(yi=j|xi,θ)
上式中,将 log 看成 ln ,另外,每一次的求导其实只是针对 θ 中的某一项 j ,所以其他的
这样就得到了梯度函数:
∂J∂θj=−1n∑i=1n[xi(1{yi=j}−p(yi=j|xi,θ)]
原文出处:http://zjjconan.github.io/articles/2015/04/Softmax-Regression-Matlab/