Logistic回归6—多类分类任务

最新推荐文章于 2024-07-24 16:19:34 发布

weixin_43484614

最新推荐文章于 2024-07-24 16:19:34 发布

阅读量582

点赞数 30

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/weixin_43484614/article/details/104500367

版权

多类分类任务的实现方式：1对其他

$\bullet$ 一对其他(One-vs-Rest, OVR)。对每个类别c，训练一个Logistic回归分类器 $f_{w}^c(\mathbf x)$ ，预测 $y = c$ 的概率。
$f_{w}^c(\mathbf x) = P(y=c|\mathbf x, \mathbf w), c=1,2,3$
$\bullet$ 每类的模型都有自己的正则参数和权重参数。
$\bullet$ 对新的输入x，选择使得 $f_{w}^c(\mathbf x)$ 最大的类别作为预测（最大后验估计，MAP）：
$\hat y = argmax_{c} f_{w}^c(\mathbf w)$

多分类任务的实现方式：多项分布

$\bullet$ 在概率分布中，贝努利(Bernoulli)分布的输出只有两种取值。
$\bullet$ Multinoulli分布，或称为范畴分布(Categorical distribution)，输出有K种取值。
$\bullet$ 类似Bernoulli分布描述两分类的概率分布，可用Multinoulli分布描述多类分类的概率分布，其参数为向量 $\theta = (\theta_{i},...,\theta_{c})$ ，其中 $\sum_{c=1}^{C}\theta_{c} = 1$ ，其中每一个分量 $\theta_{c}$ 表示第c个状态的概率。我们用符号 $Cat(y;\mathbf \theta)$ 表示
在这里插入图片描述
$\bullet$ 注意：贝努利分布和二项分布是两个不同的概念。
$\bullet$ 将类别y用独热(One Hot)编码（编码为c维向量，当y=c时，第c维为1，其他元素均为0），记为向量 $\mathbf y$ 。
$\bullet$ Multilnoulli分布的概率函数为: $Cat(\mathbf y;\mathbf \theta) =\prod_{c=1}^{C}\theta_{c}^{y_c}$ 其中 $y_{c}$ 表示向量y的第c个元素。
$\bullet$ 或者用标量形式记为： $Cat(\mathbf y;\mathbf \theta) =\prod_{c=1}^{C}\theta_{c}^{I(y_c)}$ 其中 $I (.)$ 为示性函数，当括号中条件满足时，函数值为1，否则为0。

Softmax分类器

$\bullet$ 类似两类分类模型推导，假设输出 $y = c$ 的概率可以由 $\mathbf x$ 的线性组合，再经过sigmoid函数变换得到，则模型为： $p(y=c|\mathbf x,\mathbf w) = \frac{exp(\mathbf w^T\mathbf x)}{\sum_{c'=1}^{C}exp(\mathbf w_{c'}^T\mathbf x)}$
$\bullet$ 上述等式右边为Softmax函数。Softmax函数为Sigmoid函数的推广，讲 $C$ 维向量的每个元素转换为[0,1]的数，且变换后的元素之和为1:
$\sigma(z_{c}) = \frac{e^{z_{c}}}{\sum_{c'=1}^{C}e^{z_{c'}}}$
$\bullet$ 因此得到的分类器被称为Softmax。但是觉得跟之前的OVR差不多，这里也是C个分类器，经过Softmax转换后，概率最大的那个，仍然能胜出。经过仔细检查，后边有提到OVR的分类器是分别训练，而Softmax中各个分类的参数是整体训练的。
$\bullet$ 将类别y用独热编码编为向量 $\mathbf y$ ： $y_{c} = I(y=c)$
$\bullet$ 向量 $\mu$ 表示multinoulli分布的参数： $\mu_{c} = p(y=c| \mathbf x, \mathbf w) = \frac{exp(\mathbf w_{c}^T \mathbf x)}{\sum_{c'=1}^{C}(\mathbf w_{c'}^T \mathbf x)}$
$\bullet$ 令 $\mu_{ic} = \frac{exp(\mathbf w_{c}^T \mathbf x_{i})}{\sum_{c'=1}^{C}(\mathbf w_{c'}^T \mathbf x_{i})}$ ， $y_{ic}$ 为第i个样本的分类，则Softmax分类模型的log似然函数为： $\zeta(\mathbf M) = \sum_{i=1}^{N}log(\prod_{c=1}^{C}\mu_{ic}^{y_{ic}})$ $=\sum_{i=1}^{N}\sum_{c=1}^{C}y_{ic}log(\mu_{ic})$ 注意：这里的似然函数省略了 乘积取log = 取log再相加 的那一步
$\bullet$ 定义Softmax损失为： $L(\mathbf y, \mathbf\mu) = -\sum_{c=1}^{C}y_{c}log(\mu_{c})$
$\bullet$ 则极大似然估计等价于最小训练集上的Softmax损失/负log似然损失: $J(\mathbf w) = -\sum_{i=1}^{N}\sum_{c=1}^{C}y_{ic}log(\mu_{ic})$
$=\sum_{i=1}^{N}(\sum_{c=1}^{C}y_{ic}\mathbf w_{c}^T\mathbf x - log(\sum_{c'=1}^{C}exp(\mathbf w_{c'}^T\mathbf x)))$
上式最后一步推导，觉得好像由问题，log之前是不是还应该有 $y_{ic}$ 及 $\sum_{i=1}^{C}$ ?
$\bullet$ 正则项：Softmaxt分类模型的正则项与两分类模型相同
$\bullet$ 目标函数的优化方法：同两分类模型。
$\bullet$ Scikit-Learn中对Softmax模型的实现。

class sklearn.linear_model.LogisticRegression(penalty='l2',...,solver='liblinear', multi_class='ovr',...)

参数multi_class决定了多类分类的实现方式，可选：
a)‘ovr’：即1对其他(one-vs-rest，OvR)，将多类分类任务转化为多个二类分类任务。为了完成第c类的分类决策，将所有第c类的样本作为正例，除了第c类样本以外的所有样本都作为负例，每个类别的二分类器单独训练。之前说的是C类有C个分类器，每个分类器求出为对应分类的概率，概率最大的那一个分类，则为预测分类。不太清楚前边绿色的那句话，在这样的算法里起到什么作用。
b)‘multinomial’：Softmax回归分类，对多项分布概率整体进行训练。
注意：multi_class选择会影响优化算法solver参数的选择
OvR: 可用所有的solver
Multinomial：只能选择newton-cg、lbfgs和sag/saga（liblinear不支持）
可是前边说的优化方法与二分类相同啊，这种看起来矛盾的地方，是否有什么特别的说法呢?
Softmax个人简要理解：依然使用负log似然损失，既将各个样本的概率表达式相乘再取负数。但概率表达式的推导相对复杂，它在最外层使用多项分布( $Cat(\mathbf y;\mathbf \theta) =\prod_{c=1}^{C}\theta_{c}^{y_c}$ ，上文中概率 $\theta$ 有时也用函数 $\mu$ 来表示)来表示样本的概率，该多项分布是各个分类概率0或1次方的乘积，只有真实属于的那个分类才是1次方，也是真正起作用的那一项，而各个分类的概率则使用sigmoid的推广函数softmax函数( $\frac{e^{z_{c}}}{\sum_{c'=1}^{C}e^{z_{c'}}}$ )进行计算。

weixin_43484614

关注

30
点赞
踩
27

收藏

觉得还不错? 一键收藏
1
评论
Logistic回归6—多类分类任务

多类分类任务的实现方式：1对其他∙\bullet∙ 一对其他(One-vs-Rest, OVR)。对每个类别c，训练一个Logistic回归分类器fwc(x)f_{w}^c(\mathbf x)fwc(x)，预测y=cy=cy=c的概率。fwc(x)=P(y=c∣x,w),c=1,2,3f_{w}^c(\mathbf x) = P(y=c|\mathbf x, \mathbf w), c=1...
复制链接

扫一扫