【NLP】多标签分类Review

最新推荐文章于 2024-05-25 18:24:17 发布

SUFEHeisenberg

最新推荐文章于 2024-05-25 18:24:17 发布

阅读量360

点赞数

分类专栏： NLP 多标签分类文章标签： python nlp

本文链接：https://blog.csdn.net/weixin_43557139/article/details/109250635

版权

NLP 同时被 2 个专栏收录

25 篇文章 1 订阅

订阅专栏

多标签分类

3 篇文章 0 订阅

订阅专栏

多标签分类介绍

一、概念策略及评估标准

1、概念

同一个实例，可以有多个标签，或者被分为多个类。

例如，以该电影的分类为例，影片类型可以为剧情/动作/犯罪。而最顶上的label豆瓣电影Top250则只有一个，是或者不是；或者在其他国家电影分级机制中的U12(Under 12)。

即多分类的label必须是N取1，多标签的label是N取M(M≥1)。

2、评估标准

任务是学习一个多标签分类器 $h(\cdot )$ ，预测 $\subseteq Y$ 作为𝑥的正确标签集。常见的做法是学习一个衡量𝑥和𝑦相关性的函数作为x的正确标签集。通过学习一个衡量x和y相关性的函数 $f(x, y_j)$ ，希望，希望 $f(x, y_{j1}) > f(x, y_{j2})$ ，其中 $y_{j1} \in y, \quad y_{j2} \notin y$ 。 $h (x)$ 可以由可以由 $f (x)$ 衍生得到 ${y_j | f(x,y_j) > t(x), y_j \in Y}$ 。 $t (x)$ 扮演阈值函数的角色，把标签空间对分成相关的标签集和不相关的标签集。阈值函数可由训练集产生，可以设为常数。当 $f(x, y_j)$ 返回的是一个概率值时，阈值函数可设为常数0.5。

基于样本的评价指标（先对单个样本评估表现，然后对多个样本取平均）
基于标签的评价指标（先考虑单个标签在所有样本上的表现，然后对多个标签取平均）

（1）基于样本的评价指标

令Q表示多标签评价数据集，有q个多标签样本。令H为一个多标签分类器，令 $h\left(x_{i}\right)$ 为H基于的预测结果集。

1)Subset Accuracy（衡量正确率，预测的样本集和真实的样本集完全一样才算正确。）

$\operatorname{subsetacc}(h)=\frac{1}{p} \sum_{i=1}^{p}\left[h\left(x_{i}\right)=Y_{i}\right]$

相当于单标签预测的accuracy，当q很大时评价标准过于严苛。

2)Hamming Loss（衡量错分的标签比例，正确标签没有被预测以及错误标签被预测的标签占比）

$hloss(h)=\frac{1}{p} \sum_{i=1}^{p} \frac{1}{q}\left|h\left(x^{i}\right) \Delta Y^{i}\right|$

其中 $\Delta$ 表示两个集合的对称差，返回只在其中一个集合出现的那些值。

3)Accuracy, Precision, Recall, F值（单标签学习中准确率、召回率、F1值的天然拓展）

$y_{\mathrm{exam}}(h)=\frac{1}{p} \sum_{i=1}^{p} \frac{\left|Y_{i} \cap h\left(x_{i}\right)\right|}{\left|Y_{i} \cup h\left(x_{i}\right)\right|}$ （Jaccard系数， $B)=\frac{|A \cap B|}{|A \cup B|}$ ）

$_{\mathrm{exam}}(h)=\frac{1}{p} \sum_{i=1}^{p} \frac{\left|Y_{i} \cap h\left(x_{i}\right)\right|}{\left|h\left(x_{i}\right)\right|}$

$Recall_{\operatorname{exam}}(h)=\frac{1}{p} \sum_{i=1}^{p} \frac{\left|Y_{i} \cap h\left(x_{i}\right)\right|}{\left|Y_{i}\right|}$

$F1_{\operatorname{exam}}(h)=\frac{2\times Precision _{\mathrm{exam}}(h)\times Recall_{\operatorname{exam}}(h)}{Precision _{\mathrm{exam}}(h)+Recall_{\operatorname{exam}}(h)}$

4)基于排序思路的评价指标One-error,Coverage,RankingLoss,Average Precision

（2）基于标签的评价指标

$P_{j}=\left|\left\{x_{i} \mid y_{j} \in Y_{i} \wedge y_{j} \in h\left(x_{i}\right), 1 \leq i \leq p\right\}\right|$
$P_{j}=\left|\left\{x_{i} \mid y_{j} \notin Y_{i} \wedge y_{j} \in h\left(x_{i}\right), 1 \leq i \leq p\right\}\right|$
$N_{j}=\left|\left\{x_{i} \mid y_{j} \notin Y_{i} \wedge y_{j} \notin h\left(x_{i}\right), 1 \leq i \leq p\right\}\right|$
$N_{j}=\left|\left\{x_{i} \mid y_{j} \in Y_{i} \wedge y_{j} \notin h\left(x_{i}\right), 1 \leq i \leq p\right\}\right|$

1)Macro-averaging

$B_{\text {macro }}(h)=\frac{1}{q} \sum_{j=1}^{q} B\left(T P_{j}, F P_{j}, T N_{j}, F N_{j}\right)$

2)Micro-averaging

$B_{\text {micro }}(h)=B\left(\sum_{j=1}^{q} T P_{j}, \sum_{j=1}^{q} F P_{j}, \sum_{j=1}^{q} T N_{j}, \sum_{j=1}^{q} F N_{j}\right)$

B相当于二分类评价矩阵， $\in\left\{\text {Accuracy, Precision, Recall}, F^{\beta}\right\}^{4}$ 。

macro是先对单个标签下的数量特征计算得到常规指标，再对多个标签取平均。（相当于针对于labels的权重相等）
micro是先对多个标签下的数量特征取平均，再根据数量特征计算得到常规指标。（相当于针对于examples的权重相等）

$Accuracy_{macro} (h) = Accuracy_{micro} (h)$

$Accuracy_{micro} (h)+HammingLoss(h)=1$

举例：

y_gt = np.array ([[1,0,1],[0,1,1],[0,1,0]])
y_pred = np.array ([[0,0,1],[1,1,1],[1,1,1]])
f1_score(y_gt,y_pred,average = "macro")#0.6
f1_score(y_gt,y_pred,average = "micro")#0.666666666666

macro

对于macro，我们通过每一个class的confusion matrix算出它的precision和recall，并计算出对与那个class的F1 score，最后通过平均所有class的𝐹1F1 score得到𝐹1

Class 0：

gt/pred	1	0
1	0	1
0	2	0

$P_{0}=\frac{0}{0+2}=0$ ,$ R_{0}=\frac{0}{0+1}=0 $,$ F 1_{0}=\frac{2 \times 0 \times 0}{0+0}=0$

Class1：

gt/pred	1	0
1	2	0
0	0	1

$P_{1}=\frac{2}{2+0}=1$ ,$ R_{1}=\frac{2}{2+0}=1 $,$ F 1_{1}=\frac{2 \times 1 \times 1}{1+1}=1$

Class2：

gt/pred	1	0
1	2	0
0	1	0

$P_{2}=\frac{2}{2+1}=\frac{2}{3}$ ,$ R_{2}=\frac{2}{2+0}=1 $,$ F1_{2}=\frac{2 \times \frac{2}{3} \times 1}{\frac{2}{3}+1}=\frac{4}{5}$

$P_{macro} = \frac{1}{3}(0+1+\frac{2}{3}) = 0.5556$

$R_{macro} = \frac{1}{3}(0+1+1) = 0.6667$

$F1_{macro} = \frac{1}{3}(0+1+0.8) = 0.6$

micro

对于micro，我们把所有class的binary confusion matrix整合成一个大的2x2confusion matrix，然后并对于整合成的confusion matrix算出一个precision和recall值，最后通过公式得到𝐹1𝑚𝑖𝑐𝑟𝑜。

Combined All Classes:

gt/pred	1	0
1	4	1
0	3	1

$P_{micro} = \frac{4}{4+3} = 0.5714$

$R_{micro} = \frac{4}{4+1} = 0.8$

$F1_{micro} = \frac{2*P*R}{P+R} = 0.6667$

3)AUC-macro&AUC-micro（度量的是：“排序正确”的数据对的占比）

3、策略

多标签学习的主要难点在于输出空间的爆炸增长（L个标签对应的输出空间有 $2^L$ 个）为了应对指数复杂度的标签空间，需要挖掘标签之间的相关性。（比如一部电影出现朝鲜、战争等标签，那他具有韩国的标签就很高）。

有效的挖掘标签之间的相关性，是多标签学习成功的关键。根据对相关性挖掘的强弱，可以把多标签算法分为三类。

一阶策略：忽略和其它标签的相关性，比如把多标签分解成多个独立的二分类问题。
二阶策略：考虑标签之间的成对关联，比如为相关标签和不相关标签排序。
高阶策略：考虑多个标签之间的关联，比如对每个标签考虑所有其它标签的影响。

(1)问题转化：

X	y1	y2	y3
X1	0	1	1
X2	1	0	0
X3	0	1	0
X4	0	1	1

1）Binary Relevance

分别训练(X,y1),(X,y2),(X,y3),(X,y4)四个分类器。one-order；未考虑标签之间的关联性。

2）Classifier Chains

类似于Decoder中的GL传输。

分别训练(X,y1)，([X,y1],y2)，([X,y1,y2],y3)，([X,y1,y2,y3],y4)四个分类器。high-order；链式结构决定其丢失了平行计算的缺陷。

3）Calibrated Label Ranking

对于两个标签j,k， $\left(y_{j}, y_{k}\right) \in Y_{i} \times \bar{Y}_{i}(j<k)$ 对应于正例， $\left(y_{j}, y_{k}\right) \in \bar{Y}_{i} \times Y_{i}(j<k)$ 对应于负例。将y1,y2,y3,y4两两分类，共 $\frac{q(q-1)}{2}=6$ 个分类器。分类器之间例如训练(X,[y1,y2])，其中也[y1 = 1,y2=0] $y_{12}=1$ 。[y1 = 0,y2=1] $y_{12}=0$ 。

second-order，复杂性高。

4）Random k-labelsets

将四个样本的标签集合视作各自单独的标签，如X1，X4的label相同，转化为多分类问题。High-order；标签集是训练集中已经出现的，泛化能力差，且如果|Q|类别太大，低效。

(2)算法适应

1）Multi-Label k-Nearest Neighbor（ML-KNN）
用N(x)表示x的𝑘个邻居，则𝐶𝑗=∑(𝑥,𝑦)∈𝑁(𝑥)1{𝑦𝑗∈𝑦}表示样本x的邻居中带有标签𝑦𝑗的邻居个数。用 $H_j$ 表示样本 $x$ 含有标签 $y_j$ ，根据后验概率最大化的规则，有

$h(\boldsymbol{x})=\left\{y_{j}\left|\mathbb{P}\left(H_{j} \mid C_{j}\right) / \mathbb{P}\left(\neg H_{j} \mid C_{j}\right)>1,1 \leq j \leq q\right\}\right.$

后验概率 $\mathbb{P}\left(H_{j} \mid C_{j}\right)$ 大于后验概率 $\mathbb{P}\left(\neg H_{j} \mid C_{j}\right)$ 时，即将标记 $y_j$ 赋予示例x。

通过统计具有标记 $y_j$ 且其 k 个近邻中恰好有 r 个近邻具有标记 $y_j$ 的训练样本个数及不具有标记 $y_j$ 且其 k 近邻中恰好有 r 个近邻具有标记 $y_j$ 的训练样本个数，结合贝叶斯公式确定未知标签样本X的标签。

first-order；样本带有或不带有标签 $y_j$ 的条件下，它有 $C_j$ 个邻居带有标签 $y_j$ 的概率。

2）Multi-Label Decision Tree（ML-DT）
使用决策树的思想来处理多标签数据，数据集T中，使用第 $I$ 个特征，划分值为 $\theta$ ，计算出如下信息增益：

$\theta)=M L E n t(T)-\sum_{\rho \in\{-,+\}} \frac{\left|T^{\rho}\right|}{|T|} \cdot M L \operatorname{Ent}\left(T^{\rho}\right)$

first-order；新样本到来时，向下遍历决策树的结点，找到叶子结点，若 $p_j$ 大于0.5则表示含有标签 $y_j$

3）Ranking Support Vector Machine（Rank-SVM）
使用最大间隔的思想来处理多标签数据。
Rank-SVM考虑系统对相关标签和不相关标签的排序能力。
考虑最小化𝑥𝑖xi到每一个“相关-不相关”标签对的超平面的距离，来得到间隔。

$\min _{\left(x^{i}, y^i\right) \in D_{\left(y_{j}, y_{k}\right) \in y^{i} \times y^{\bar{i}}}} \frac{\left\langle w_{j}-w_{k}, x^{i}\right\rangle+b_{j}-b_{k}}{\left\|w_{j}-w_{k}\right\|}$

构建了”相关-不相关“标签对的超平面，second-order

4）Collective Multi-Label Classifier（CML）
该算法的核心思想最大熵原则。用(x,y)表示任意的一个多标签样本，其中 $y=\left(y_{1}, y_{2}, \ldots, y_{q}\right) \in\{1,0\}^{q}$ 。
算法的任务等价于学习一个联合概率分布𝑝(𝑥,𝑦)，用 $H_p(x,y)$ 表示给定概率分布p时(x,y)的信息熵，熵最大的模型是最好的模型。

SUFEHeisenberg

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【NLP】多标签分类Review

多标签分类介绍一、概念策略及评估标准1、概念同一个实例，可以有多个标签，或者被分为多个类。例如，以该电影的分类为例，影片类型可以为剧情/动作/犯罪。而最顶上的label豆瓣电影Top250则只有一个，是或者不是；或者在其他国家电影分级机制中的U12(Under 12)。即多分类的label必须是N取1，多标签的label是N取M(M≥1)。2、评估标准任务是学习一个多标签分类器h(⋅)h(\cdot )h(⋅)，预测h(x)⊆Yh(x) \subseteq Yh(x)⊆Y作为????的正确
复制链接

扫一扫

专栏目录