Softmax回归,我们可以说它是逻辑回归的在多分类问题下的推广,我们也可以说逻辑回归是Softmax回归的一种特殊形式。
一. 假设函数
在 softmax回归中,我们解决的是多分类问题(相对于 logistic 回归解决的二分类问题),类标
y
可以取
对于给定的测试输入
x
,我们想用假设函数针对每一个类别j估算出概率值
其中 θ1,θ2,…,θk∈ℜn+1 是模型的参数。请注意 1∑kj=1eθTjx(i) 这一项对概率分布进行归一化,使得所有概率之和为 1 。
二. 代价函数
代价函数如下:
这里1{.}是示性函数,其取值规则为 1值为真的表达式=1 ; 1值为假的表达式=0 。权重衰减项 λ2∑ki=1∑nj=0θ2ij 来修改代价函数,这个衰减项会惩罚过大的参数值。
有了这个权重衰减项以后 ( λ>0 ),代价函数就变成了严格的凸函数,这样就可以保证得到唯一的解了。 此时的 Hessian矩阵变为可逆矩阵,并且因为 J(θ) 是凸函数,梯度下降法和 L-BFGS 等算法可以保证收敛到全局最优解。
为了使用优化算法,我们需要求得这个新函数 J(θ) 的导数,如下:
∇θjJ(θ)
本身是一个向量,它的第
l
个元素