Logistic回归多分类任务

最新推荐文章于 2023-12-04 18:22:15 发布

Haley_Hu

最新推荐文章于 2023-12-04 18:22:15 发布

阅读量1.1k

点赞数 1

文章标签：机器学习逻辑回归

本文链接：https://blog.csdn.net/Hu_xz/article/details/104182438

版权

多类分类任务

有两种分类：

1对其他
多项分布

一对其他(One-vs-Rest, OvR)

在这里插入图片描述
三个分类器：

上述通过三个分类器分别是C1，C2，C3。每类的模型都有自己正则参数和权重参数。每个分类器是单独训练得到的。

OvR如何对新样本进行分类？

对于一个需要预测的样本，通过每个分类器模型对该样本做预测，每个分类器都会返回该样本的概率。然后选择概率最大的类别作为该样本的类别。即：
$\hat{y} = \underset{c}{argmax}f_w^c(x)$

多项式分布

在logistic中，伯努利分布的输出只有两种取值。而Multinoulli分布，称为范畴分布，输出有K种取值。
所以，我们就可以用Multinoulli分布描述多分类的概率分布，其参数为向量 $\theta=(\theta_1, \theta_2,\cdots,\theta_C)$ ，其中 $\sum_{c=1}^C\theta_c = 1$
其中，每一个分量 $\theta_c$ 表示第 $c$ 个状态的概率，我们用符号 $Cat(y;\theta)$ 表示。

Multinoulli分布的概率密度函数为： $Cat(y;\theta)=\Pi _{c=1}^C \ \theta_c^{y_c}$
标量形式记为： $Cat(y;\theta)=\Pi_{c=1}^C\ \theta_c^{I(y=c)}$
其中， $I$ 为指示函数，当括号中条件满足时，函数值为1，否则为0。

softmax分类器

类似两类分类模型推导，假设输出 $y = k$ 的概率可以由x的线性组合再经过sigmoid函数变换得到。
对于K个标量 $x_1,x_2,\cdots,x_k$ ，softmax函数：
$z_k=softmax(x_k)=\frac{e^{x_k}}{\sum_{i=1}^K\ e^{x_i}}$
其中， $z_k \in [0, 1], \sum_{i=1}^Kz_k=1$
若 $x_k = w^Tx$ ，将式子代入可得：
$w)=\frac{e^{w^Tx}}{\sum_{{k}'=1}^K e^{w_{k'}^T x}}$
此式子为模型，得到的分类器被称为Softmax分类器。

Softmax分类模型的log似然函数

$\mu_k=p(y=k|x, w)=\frac{e^{w^Tx}}{\sum_{{k}'=1}^K e^{w_{k'}^T x}}$
使用交叉熵损失，即负log损失：
$\pounds(M)=-\frac{1}{N}\sum_{i=1}^Nlog(\Pi_{k=1}^K\ \mu_{ik}^{y_{ik}})=-\frac{1}{N}\sum_{i=1}^N\sum_{k=1}^Ky_{ik}log(\mu_{ik})$
其中 $y_{ik}$ 是第 $i$ 个标签one-hot向量表示的第k个维度的元素值。
以上就是Softmax损失。

优化方法和两分类一致，使用梯度下降法，如下：
$\frac{\partial \pounds(W)}{\partial W}=-\frac{1}{N}\sum_{i=1}^N \hat{X_i}(y_i-\hat{y_i})^T$
采用梯度下降法，初始化W=0，进行迭代
$W_{t+1} \leftarrow W_t + \alpha(\frac{1}{N}\sum_{i=1}^N \hat{X_i}(y_i-\hat{y_i}^{W_t})^T)$
其中， $\alpha$ 是学习率， $\hat{y_i}^{W_t}$ 是当参数 $W_t$ 时模型的输出。

Scikit-Learn中实现多分类

参数multi_class：
- ‘ovr’：1对其他
- ‘multinomial’：Softmax回归分类，对多项分布概率整体进行训练
  注意：multi_class选择会影响优化算法solver参数的选择，OvR：可用所有的slover；Multinomial：只能选择newton-cg，lbfgs和sag/saga（不支持liblinear）

Haley_Hu

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Logistic回归多分类任务

多类分类任务有两种分类：1对其他多项分布一对其他(One-vs-Rest, OvR)三个分类器：上述通过三个分类器分别是C1，C2，C3。每类的模型都有自己正则参数和权重参数。每个分类器是单独训练得到的。OvR如何对新样本进行分类？对于一个需要预测的样本，通过每个分类器模型对该样本做预测，每个分类器都会返回该样本的概率。然后选择概率最大的类别作为该样本的类别。即：y^...
复制链接

扫一扫