机器学习:Softmax回归

Softmax回归,我们可以说它是逻辑回归的在多分类问题下的推广,我们也可以说逻辑回归是Softmax回归的一种特殊形式。

一. 假设函数

在 softmax回归中,我们解决的是多分类问题(相对于 logistic 回归解决的二分类问题),类标 y 可以取 k 个不同的值(而不是 2 个)。因此,对于训练集 {(x(1),y(1)),,(x(m),y(m))} ,我们有 y(i){1,2,,k} 。(注意此处的类别下标从 1 开始,而不是 0)。例如,在 MNIST 数字识别任务中,我们有 k=10 个不同的类别。

对于给定的测试输入 x ,我们想用假设函数针对每一个类别j估算出概率值 p(y=jx)。也就是说,我们想估计 x 的每一种分类结果出现的概率。因此,我们的假设函数将要输出一个 k 维的向量(向量元素的和为1)来表示这 k 个估计的概率值。 具体地说,我们的假设函数 hθ(x) 形式如下:

hθ(x(i))=p(y(i)=1|x(i);θ)p(y(i)=2|x(i);θ)p(y(i)=k|x(i);θ)=1kj=1eθTjx(i)eθT1x(i)eθT2x(i)eθTkx(i)

其中 θ1,θ2,,θkn+1 是模型的参数。请注意 1kj=1eθTjx(i) 这一项对概率分布进行归一化,使得所有概率之和为 1 。

二. 代价函数

代价函数如下:

J(θ)=1mi=1mj=1k1{y(i)=j}logeθTjx(i)kl=1eθTlx(i)+λ2i=1kj=0nθ2ij

这里1{.}是示性函数,其取值规则为 1=1 1=0 。权重衰减项 λ2ki=1nj=0θ2ij 来修改代价函数,这个衰减项会惩罚过大的参数值。

有了这个权重衰减项以后 ( λ>0 ),代价函数就变成了严格的凸函数,这样就可以保证得到唯一的解了。 此时的 Hessian矩阵变为可逆矩阵,并且因为 J(θ) 是凸函数,梯度下降法和 L-BFGS 等算法可以保证收敛到全局最优解。

为了使用优化算法,我们需要求得这个新函数 J(θ) 的导数,如下:

θjJ(θ)=1mi=1m[x(i)(1{y(i)=j}p(y(i)=j|x(i);θ))]+λθj

θjJ(θ) 本身是一个向量,它的第 l 个元素 J(θ)θjl J(θ) θj 的第 l 个分量的偏导数,通过最小化 J(θ),我们就能实现一个可用的 softmax 回归模型。

三.参考资料

UFLDL教程

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值