Softmax Regression

Logistic Regression 常用于 二分类 的场合,而 Softmax Regression (又名 Multinomial Logistic Regression) 就是 Logistic Regression 在 多类别 场合下的推广,这种推广并不需要训练或者结合多个二分类分类器。

1. 概率估计和类别预测

基本思路:对某一样本/实例 x x
- 首先计算该样本属于各个类别 k 的得分 sk(x) s k ( x ) ,如 式-1 所示。
- 利用 sk(x) s k ( x ) 和 softmax 函数 (又名 normalized exponential) 估计属于各个类别的概率,如 式-2 所示。

【式-1】类别 k k 的 Softmax 得分

sk(x)=θkTx

注意:每个类别都有自己专门的参数向量 θk θ k ,对应于参数矩阵 Θ Θ 中的某一行。

【式-2】利用 Softmax 函数估计样本属于类别 k k 的概率 (multiclass, not multioutput)

p^k=σ(s(x))k=exp(sk(x))j=1Kexp(sj(x))

  • K K 是总的类别数

【式-3】Softmax Regression 类别预测

y^=argmaxkσ(s(x))k=argmaxksk(x)=argmaxk(θkTx)

2. 模型训练与代价函数

在多类别的条件下,模型估计的与目标类别相对应的概率值应最大,而其他类别的概率应尽可能小。因此有如 式-4 所示的 交叉熵代价函数 (cross entropy)。

  • 交叉熵:通常用于衡量 一组估计的类别概率 与目标类别之间的差异性。

【式-4】交叉熵代价函数

J(Θ)=1mi=1mk=1Ky(i)klog(p̂ (i)k) J ( Θ ) = − 1 m ∑ i = 1 m ∑ k = 1 K y k ( i ) log ⁡ ( p ^ k ( i ) )

  • y(i)k y k ( i ) :若第 i i 个样本属于第 k 类则取 1,否则取 0.
  • 若只有两个类别,则退化为 Logistic Regression 的代价函数 (log loss)

【式-5】类别 k k 的交叉熵梯度向量

θk(Θ)=1mi=1m(p^k(i)yk(i))x(i)

在得到 式-5 的结果后,就可以用 GD 或其他优化算法来找到使得 cost function 取得最小的 Θ Θ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值