基于UTC的多标签/层次分类小样本文本应用

AI很强

于 2024-08-16 14:21:46 发布

阅读量1.3k

点赞数 15

文章标签：人工智能 python 自然语言处理深度学习

本文链接：https://blog.csdn.net/vh62505/article/details/141258769

版权

[摘要]：本文提出了一种基于通用文本分类模型UTC(Universal Text Classification)的小样本多标签/层次文本分类方法,应用于案情要素抽取等任务。首先介绍了近年来大量裁判文书公开,案情复杂多样的背景,突出了利用自然语言处理技术进行案情要素抽取的重要性。接着详细介绍了UTC模型,它可以统一建模单标签、多标签、层次分类等多种文本分类任务,具有较强的跨领域迁移能力。UTC采用统一的语义匹配方式USM将标签和文本进行统一建模,并利用大规模多任务预训练提高通用性能。最后,作者展示了UTC在零样本和小样本场景下,在医疗、金融、法律等领域均能达到较高分类准确率,大幅降低了数据标注成本。总的来说,本文提出的方法对于提高自然语言处理技术在法律领域的应用具有重要意义。

[关键词]： 小样本文本分类；多标签/层次分类；UTC模型；案情要素抽取

1.实验背景及目的

近年来，大量包含了案件事实及其适用法律条文信息的裁判文书逐渐在互联网上公开，海量的数据使自然语言处理技术的应用成为可能。现实中的案情错综复杂，案情描述通常涉及多个重要事实，以CAIL2019数据集中婚姻家庭领域的案情要素抽取为例： "2013年11月28日原、被告离婚时自愿达成协议，婚生子张某乙由被告李某某抚养，本院以（2013）宝渭法民初字第01848号民事调解书对该协议内容予以了确认，该协议具有法律效力，对原、被告双方均有约束力。" 该案件中涉及婚后有子女、限制行为能力子女抚养两项要素。接下来我们将讲解在小样本场景下如何利用多标签模型，对输入文本中进行案情重要要素抽取。

2 实验相关理论

2.1UTC的介绍：

本项目提供基于通用文本分类 UTC（Universal Text Classification）模型微调的文本分类端到端应用方案，打通数据标注-模型训练-模型调优-预测部署全流程，可快速实现文本分类产品落地。

文本分类是一种重要的自然语言处理任务，它可以帮助我们将大量的文本数据进行有效的分类和归纳。实际上，在日常生活中，我们也经常会用到文本分类技术。例如，我们可以使用文本分类来对新闻报道进行分类，对电子邮件进行分类，对社交媒体上的评论进行情感分析等等。但是，文本分类也面临着许多挑战。其中最重要的挑战之一是数据稀缺。由于文本数据往往非常庞大，因此获取足够的训练数据可能非常困难。此外，不同的文本分类任务也可能面临着领域多变和任务多样等挑战。为了应对这些挑战，PaddleNLP推出了一项零样本文本分类应用UTC。该应用通过统一语义匹配方式USM（Unified Semantic Matching）来将标签和文本的语义匹配能力进行统一建模。这种方法可以帮助我们更好地理解文本数据，并从中提取出有用的特征信息。

UTC具有低资源迁移能力，可以支持通用分类、评论情感分析、语义相似度计算、蕴含推理、多项式阅读理解等多种“泛分类”任务。这使得开发者可以更加轻松高效地实现多任务文本分类数据标注、训练、调优和上线，从而降低文本分类技术门槛。

总之，文本分类是一项重要的自然语言处理任务，它可以帮助我们更好地理解和归纳文本数据。尽管它面临着许多挑战，但是通过使用PaddleNLP的零样本文本分类应用UTC，开发者们可以简单高效实现多任务文本分类数据标注、训练、调优、上线，降低文本分类落地技术门槛。

2.2 UTC技术思路

2.2.1 多任务统一建模

在传统技术方案中，针对不同的分类任务需要构建多个分类模型，模型需单独训练且数据和知识不共享。而在UTC方案下，单个模型能解决所有分类需求，包括但不限于单标签分类、多标签分类、层次标签分类、大规模事件标签检测、蕴含推理、语义相似度计算等，降低了开发成本和机器成本。如图一所示：

图一：传统方案VSUTC统一建模方案

2.2.2 零样本分类和小样本迁移能力强

UTC通过大规模多任务预训练后，可以适配不同的行业领域，不同的分类标签。例如，在财务报销场景，无需训练数据，即可全部分类正确（图左）。针对稍复杂场景，标注少量数据微调即完成任务适配，例如金融文档分类（图中）和政务服务分类（图右）中，仅标注了几条样本，分类效果就取得大幅提升，大大降低标注门槛和成本。如图二所示：

图二：文本分类零样本和小样本效果展示

2.2.3在医疗、金融、法律等领域中：
无需训练数据的零样本情况下UTC效果平均可达到70%+（如下表所示），标注少样本也可带来显著的效果提升：每个标签仅仅标注1条样本后，平均提升了10个点！也就是说，即使在某些场景下表现欠佳，人工标几个样本，丢给模型后就会有大幅的效果提升。说明：0-shot表示无训练数据直接预测，1-shot表示每个标签基于1条标注数据进行模型微调。如图三所示：

图三：自建数据集上UTC效果

2.2.4UTC模型构架：
UTC基于百度最新提出的统一语义匹配框架USM（Unified Semantic Matching）[1]，将分类任务统一建模为标签与文本之间的匹配任务，对不同标签的分类任务进行统一建模。具体地说：为了实现任务架构统一，UTC设计了标签与文本之间的词对连接操作（Label–>CLS-Token Linking），这使得模型能够适应不同领域和任务的标签信息，并按需求进行分类，从而实现了开放域场景下的通用文本分类。例如，对于事件检测任务，可将一系列事件标签拼接为[L]上映[L]夺冠[L]下架，然后与原文本一起作为整体输入到UTC中，UTC将不同标签标识符[L]与[CLS]进行匹配，可对不同标签类型的分类任务统一建模，如图四所示：

图四：UTC模型架构图

为了实现通用能力共享，让不同领域间的标签知识跨域迁移，UTC构建了统一的异质监督学习方法进行多任务预训练，使不同领域任务具备良好的零/少样本迁移性能。统一的异质监督学习方法主要包括三种不同的监督信号：

- 直接监督：分类任务直接相关的数据集，如情感分类、新闻分类、意图识别等。
- 间接监督：分类任务间接相关的数据集，如选项式阅读理解、问题-文章匹配等。
- 远程监督：标签知识库或层级标题与文本对齐后弱标注数据。

2.3 分类落地面临难度

分类任务看似简单，然而在产业级文本分类落地实践中，面临着诸多挑战：

任务多样：单标签、多标签、层次标签、大规模标签等不同的文本分类任务，需要开发不同的分类模型，模型架构往往特化于具体任务，难以使用统一形式建模；
数据稀缺：部分领域数据稀缺，难以获取，且领域专业性使得数据标注门槛高；
标签迁移：不同领域的标签多样，并且迁移难度大，尤其不同领域间的标签知识很难迁移。

3.数据集分析及处理

3.1数据说明

CAIL2019—婚姻家庭要素提取任务数据集的子集作为示例数据集。该数据集中原始训练集包括 14377 条标注样本，我们按每条标签随机采样 4 条样本，得到 80 条样本数据作为训练集，剩余训练集数据作为测试集。

3.2数据格式

下边主要介绍多标签分类任务自定义数据集的格式要求，整体目录如下

data/

├── train.txt # 训练数据集

├── dev.txt # 验证数据集

├── test.txt # 测试数据集（可选）

├── data.txt # 待预测数据（可选）

└── label.txt # 分类标签集

3.3训练/验证/测试数据

对于训练/验证/测试数据集文件，每行数据表示一条样本，包括文本和标签两部分，由tab符\t分隔，多个标签以英文逗号,分隔。格式如下

<文本>'\t'<标签>','<标签>','<标签>

<文本>'\t'<标签>','<标签>

例如，在婚姻家庭要素提取数据集中

现在原告已是第二次申请与被告离婚了。二次起诉离婚

双方均认可价值6万元。不动产分割,有夫妻共同财产

2004年4月，原、被告发生纠纷后，被告离家外出未归，直到现在，双方长期分居生活，十几年间互无联系，夫妻感情已经完全破裂。婚后分居

婚生子杨某甲由原告抚养，高中阶段之前的相关费用由原告承担，高中阶段之后的相关费用由双方协商，被告可以随时探望孩子；婚后有子女,支付抚养费,限制行为能力子女抚养

3.4预测数据

对于待预测数据文件，每行包含一条待预测样本，无标签。格式如下

<文本>

例如，在婚姻家庭要素提取数据集中

五松新村房屋是被告婚前购买的；

2、判令被告返还借婚姻索取的现金33万元，婚前个人存款10万元；

3.5标签数据

对于分类标签集文件，存储了数据集中所有的标签集合，每行为一个标签名。如果需要自定义标签映射用于分类器初始化，则每行需要包括标签名和相应的映射词，由==分隔。格式如下

<标签>'=='<映射词>

例如，对于婚姻家庭要素提取数据集，原标签字数较多，因此同一个标签依赖的输出也多。为了降低训练难度，我们可以将其映射为较短的短语

有夫妻共同债务==共同债务

存在非婚生子==非婚生子

Note: 这里的标签映射词定义遵循的规则是，不同映射词尽可能长度一致，映射词和提示需要尽可能构成通顺的语句。越接近自然语句，小样本下模型训练效果越好。如果原标签名已经可以构成通顺语句，也可以不构造映射词，每行一个标签即可，即

有夫妻共同债务

存在非婚生子

3.6数据集来源

法研杯：http://cail.cipsc.org.cn/

4.评价标准

多标签分类准确率

评价指标: macro-F1 score, micro-F1 score

层次分类准确率

评价指标: classification accuracy on the hierarchical structure

小样本泛化能力

模型在训练样本较少的情况下,仍能保持较高的分类性能。

评价指标: F1 score, accuracy on held-out test set

模型复杂度

模型参数量、推理时间等,以评估模型的复杂度和部署成本。

评价指标: parameter count, inference time

应用价值：法律条文分类。

评价指标: domain experts' feedback, real-world deployment metrics

5 实验环境

Python 3.8+
label-studio == 1.7.2

6. 实验过程及分析

6.1多标签/层次分类数据转换

这里我们使用CAIL2019“中国法研杯”司法人工智能挑战赛—婚姻家庭要素提取任务数据集的子集作为示例数据集。该数据集中原始训练集包括 14377 条标注样本，我们按每条标签随机采样 4 条样本，得到 80 条样本数据作为训练集，剩余训练集数据作为测试集。

6.2多标签源数据格式

训练/验证/测试数据

data/

├── train.txt # 训练数据集

├── dev.txt # 验证数据集

├── test.txt # 测试数据集（可选）

├── data.txt # 待预测数据（可选）

└── label.txt # 分类标签集

对于训练/验证/测试数据集文件，每行数据表示一条样本，包括文本和标签两部分，由tab符\t分隔，多个标签以英文逗号,分隔。格式如下

<文本>'\t'<标签>','<标签>','<标签>

<文本>'\t'<标签>','<标签>

数据集展示

本院认为，涉案房屋系2012年12月4日原、被告婚姻关系存续期间购买，且涉案楼房的产权登记在原、被告名下，依据法律规定，夫妻在婚姻关系存续期间所得的财产，归夫妻共同所有；不动产分割,有夫妻共同财产。原、被告之间的共同财产应依法分割。有夫妻共同财产。协议不成时，由人民法院判决”的规定，由于被告后期治疗还需大量费用，原告应给与原告必要的经济帮助。适当帮助，故原告向法院提起诉讼，要求与被告离婚，婚生女孩随原告生活，被告给付抚养费。婚后有子女,支付抚养费,限制行为能力子女抚养。2014年12月22日，原告诉至本院，要求与被告离婚，后本院判决不准予原、被告离婚。二次起诉离婚。男到女家生活，2006年12月婚生一女，取名张某甲。婚后有子女。

预测数据

对于待预测数据文件，每行包含一条待预测样本，无标签。格式如下

<文本>

数据集展示

五松新村房屋是被告婚前购买的；

被告于2016年3月将车牌号为皖B×××××出售了2.7万元，被告通过原告偿还了齐荷花人民币2.6万元，原、被告尚欠齐荷花2万元。

2、判令被告返还借婚姻索取的现金33万元，婚前个人存款10万元；

一、判决原告于某某与被告杨某某离婚；

标签数据

<标签>'=='<映射词>

例如，对于婚姻家庭要素提取数据集，原标签字数较多，因此同一个标签依赖的输出也多。为了降低训练难度，我们可以将其映射为较短的短语。

有夫妻共同债务==共同债务

存在非婚生子==非婚生子

这里的标签映射词定义遵循的规则是，不同映射词尽可能长度一致，映射词和提示需要尽可能构成通顺的语句。越接近自然语句，小样本下模型训练效果越好。如果原标签名已经可以构成通顺语句，也可以不构造映射词，每行一个标签即可。

6.3层次分类源数据格式

训练/验证/测试数据

对于训练/验证/测试数据集文件，每行数据表示一条样本，包括文本和标签两部分，由tab符\t分隔，多个标签以英文逗号,分隔，同一标签内不同层级以##字符连接。格式如下

<文本>'\t'<标签>','<标签>','<标签>

<文本>'\t'<标签>','<标签>

紫光圣果副总经理李明雷辞职组织关系,组织关系##辞/离职

无理取闹辱骂扶贫干部织金一居民被行拘司法行为,司法行为##拘捕

标签数据

对于分类标签集文件，存储了数据集中所有的标签路径集合，每行是一个标签路径，高层的标签指向底层标签，不同层级的标签用'##'连接，本项目选择为标签层次结构中的每一个节点生成对应的标签路径，详见层次分类任务介绍，标签路径格式如下

<一级标签>

<一级标签>'##'<二级标签>

<一级标签>'##'<二级标签>'##'<三级标签>

如果需要自定义标签映射用于分类器初始化，则每行需要包括标签名和相应的映射词，由==分隔。格式如下

<一级标签>'=='<映射词>

<一级标签>'##'<二级标签>'=='<映射词>

<一级标签>'##'<二级标签>'##'<三级标签>'=='<映射词>

例如，原标签路径交往##会见中包括特殊符号##，大概率不会在说话或者写作中使用，因此我们将其映射为会见或者见面。

交往==交往

交往##会见==会见

6.4转换后格式

三种分类都可以在 UTC 框架下实现，其中 multi-class 2.5版本需要修改评估代码。multi-label: UTC 默认是 multi-label 形式。

#多分类数据示例

{"text_a": "、月经期间刮痧拔罐会引起身体什么", "text_b": "", "question": "", "choices": ["病情诊断", "治疗方案", "病因分析", "指标解读", "就医建议", "疾病表述", "后果表述", "注意事项", "功效作用", "医疗费用", "其他"], "labels": [5]}

#多标签数据示例

{"text_a": "多标签分类示例","text_b": "", "question": "","choices": ["体育", "时政", "娱乐", "电影"], "labels": [2, 3]}

#层次分类数据示例

{"text_a": "多层次分类示例", "text_b": "", "question": ""， "choices": ["环境资质优", "环境资质差", "口味口感好", "口味口感差"], "labels": [0, 1]}

原有代码中compute_metrics 函数的 sigmoid 实现 run_train.py 和 run_eval.py 均改为 softmax，最新版本已经增加：single_label超参数默认False，即可。二分类时，开启single_label时需要将运行脚本中的 metric_for_best_model 参数改为accuracy。

6.5模型训练预测

多任务训练场景可分别进行数据转换再进行混合：通用分类、评论情感分析、语义相似度计算、蕴含推理、多项式阅读理解等众多“泛分类”任务

##代码结构

├── deploy/simple_serving/ # 模型部署脚本

├── utils.py # 数据处理工具

├── run_train.py # 模型微调脚本

├── run_eval.py # 模型评估脚本

├── label_studio.py # 数据格式转换脚本

├── label_studio_text.md # 数据标注说明文档

└── README.md

6.5.1模型微调

推荐使用 PromptTrainer API 对模型进行微调，该 API 封装了提示定义功能，且继承自 Trainer API 。只需输入模型、数据集等就可以使用 Trainer API 高效快速地进行预训练、微调等任务，可以一键启动多卡训练、混合精度训练、梯度累积、断点重启、日志显示等功能，Trainer API 还针对训练过程的通用训练配置做了封装，比如：优化器、学习率调度等。

使用下面的命令，使用 utc-base 作为预训练模型进行模型微调，将微调后的模型保存至output_dir：

训练样本80下结果：

图五显示了各个指标的值,包括损失函数、Micro F1 score、Macro F1 score、运行时间、每秒处理的样本数和每秒处理的步数。这些指标可以帮助您评估模型的性能和训练过程。

图五：损失函数、Micro F1 score、Macro F1 score、运行时间、每秒处理的样本数图

二分类时需要注意的问题

训练样本1.4w+下结果：

绘制图像如图六所示：

Eval Loss: 1.0955 - 这表示模型在验证集上的平均损失值为1.0955。较低的验证损失意味着模型的泛化性能较好。

Eval Micro F1: 0.9833 - 模型在验证集上的微观 F1 分数为0.9833,非常接近1,说明模型在所有类别上的整体表现都很优秀。

Eval Macro F1: 0.9492 - 模型在验证集上的宏观 F1 分数为0.9492,也非常高,表示模型在各个类别上的性能都很均衡。

Eval Runtime: 3.0153 - 模型在验证集上的平均推理时间为3.0153秒,这是一个不错的响应速度。

Eval Samples/s: 534.2800 - 模型每秒能处理534.28个样本,说明其推理速度很快。

Eval Steps/s: 4.3110 - 模型每秒能执行4.311个训练步骤,同样反映了其快速的推理能力。

图六：训练1.4w+展示图

可配置参数说明：

single_label: 每条样本是否只预测一个标签。默认为False，表示多标签分类。
device: 训练设备，可选择 'cpu'、'gpu' 其中的一种；默认为 GPU 训练。
logging_steps: 训练过程中日志打印的间隔 steps 数，默认10。
save_steps: 训练过程中保存模型 checkpoint 的间隔 steps 数，默认100。
eval_steps: 训练过程中保存模型 checkpoint 的间隔 steps 数，默认100。
seed：全局随机种子，默认为 42。
model_name_or_path：进行 few shot 训练使用的预训练模型。默认为 "utc-base", 可选"utc-xbase", "utc-base", "utc-medium", "utc-mini", "utc-micro", "utc-nano", "utc-pico"。
output_dir：必须，模型训练或压缩后保存的模型目录；默认为 None 。
dataset_path：数据集文件所在目录；默认为 ./data/ 。
train_file：训练集后缀；默认为 train.txt 。
dev_file：开发集后缀；默认为 dev.txt 。
max_seq_len：文本最大切分长度，包括标签的输入超过最大长度时会对输入文本进行自动切分，标签部分不可切分，默认为512。
per_device_train_batch_size:用于训练的每个 GPU 核心/CPU 的batch大小，默认为8。
per_device_eval_batch_size:用于评估的每个 GPU 核心/CPU 的batch大小，默认为8。
num_train_epochs: 训练轮次，使用早停法时可以选择 100；默认为10。
learning_rate：训练最大学习率，UTC 推荐设置为 1e-5；默认值为3e-5。
do_train:是否进行微调训练，设置该参数表示进行微调训练，默认不设置。
do_eval:是否进行评估，设置该参数表示进行评估，默认不设置。
do_export:是否进行导出，设置该参数表示进行静态图导出，默认不设置。
export_model_dir:静态图导出地址，默认为None。
overwrite_output_dir：如果 True，覆盖输出目录的内容。如果 output_dir 指向检查点目录，则使用它继续训练。
disable_tqdm：是否使用tqdm进度条。
metric_for_best_model：最优模型指标, UTC 推荐设置为 macro_f1，默认为None。
load_best_model_at_end：训练结束后是否加载最优模型，通常与metric_for_best_model配合使用，默认为False。
save_total_limit：如果设置次参数，将限制checkpoint的总数。删除旧的checkpoints 输出目录，默认为None。
--save_plm：保存模型进行推理部署

6.5.2模型评估

测试结果：

Text结果：

绘制图像如图七所示：

Test Loss: 1.03 - 这是模型在测试集上的平均损失值,相比验证集的损失略有上升,但依然保持在较低水平。

Micro F1: 96.64 - 这是模型在测试集上的微观 F1 分数。微观 F1 分数衡量的是模型在所有类别上的整体表现,这个很高的分数说明模型在各类别上都有出色的性能。

Macro F1: 95.05 - 这是模型在测试集上的宏观 F1 分数。宏观 F1 分数是各个类别 F1 分数的平均值,这个也非常高,表示模型在各个类别上的性能都很均衡。

Runtime: 98.78 - 这是模型在测试集上的平均推理时间,单位为秒。

Samples/s: 102.03 - 这是模型在测试集上每秒处理的样本数量。

Steps/s: 1.032 - 这是模型在测试集上每秒执行的训练步数。

这个模型在测试集上的各项指标都非常出色,微观和宏观 F1 都超过了95%,说明模型在实际应用中能够很好地识别各个类别。

图七：Text测试结果图

Dev结果：

绘制图像如图八所示：

test_loss: 1.0405 - 这是模型在测试集上的平均损失值,相比验证集略有上升,但依然保持在较低水平。

test_macro_f1: 0.934 - 这是模型在测试集上的宏观 F1 分数。宏观 F1 分数是各个类别 F1 分数的平均值,这个很高的分数表示模型在各类别上的性能都很均衡。

test_micro_f1: 0.9779 - 这是模型在测试集上的微观 F1 分数。微观 F1 分数衡量的是模型在所有类别上的整体表现,这个非常高的分数说明模型在各类别上都有出色的识别能力。

test_runtime: 11.6 - 这是模型在测试集上的平均推理时间,单位为秒。

test_samples_per_second: 138.821 - 这是模型在测试集上每秒处理的样本数量。

test_steps_per_second: 8.703 - 这是模型在测试集上每秒执行的训练步数。

总体来看,这个模型在测试集上的各项指标都非常优秀。微观和宏观 F1 分数都超过了0.93,说明模型在实际应用中能够很好地识别各个类别。

图八：Dev测试结果图

6.5.3模型预测

绘制图像如图九所示：

横轴表示置信度得分 (Score)。

纵轴表示预测标签 (Label)。

图九：模型预测图

抽样测试：

协议不成时，由人民法院判决”的规定，由于被告后期治疗还需大量费用，原告应给与原告必要的经济帮助。适当帮助

故原告向法院提起诉讼，要求与被告离婚，婚生女孩随原告生活，被告给付抚养费。婚后生育,付抚养费,抚养孩子

2014年12月22日，原告诉至本院，要求与被告离婚，后本院判决不准予原、被告离婚。二次起诉

男到女家生活，2006年12月婚生一女，取名张某甲。婚后生育。

绘制扇形图如图十所示：

标签及其比例

适当帮助 (33.32%)：

这个类别占整个饼图的最大部分，表示在所有样本中，该标签的累计置信度得分最高。具体来说，这个标签的置信度得分为 0.9990043954170514。

抚养孩子 (16.66%)：

这个类别占整个饼图的相对较小部分，表示在所有样本中，该标签的累计置信度得分为 0.9991192036976089。

婚后生育 (16.68%)：

这个类别的比例稍大于“抚养孩子”，表示在所有样本中，该标签的累计置信度得分为 0.9994037939529928 + 0.9981496013638776 = 1.9975533953168704。

付抚养费 (16.67%)：

这个类别占整个饼图中较小的一部分，表示该标签的累计置信度得分为 0.9995337863092342。

二次起诉 (16.67%)：

这个类别占整个饼图的一部分，表示该标签的累计置信度得分为 0.9996573067393362。

饼图的意义

颜色区分：每个标签用不同的颜色表示，使得各个标签的占比一目了然。

百分比标注：每个扇区都有一个百分比标注，表示该标签的累计置信度得分占所有标签累积得分的比例。

标签名称：每个扇区的标签名称标注在相应的扇区上，使得图表易于理解。

数据解读

适当帮助的置信度得分最高，表明该标签在所有样本中的预测置信度最高。

其他标签（抚养孩子、婚后生育、付抚养费、二次起诉）的置信度得分较为接近，表示这些标签的预测置信度在所有样本中分布较为均衡。

图十：抽样检测图

7.总结

7.1UTC提示学习和微调预训练学习模型对比

Macro F1和Micro F1都是评估分类模型性能的指标，但是它们计算方式不同。

Macro F1是每个类别的F1值的平均值，不考虑类别的样本数。它适用于数据集中各个类别的样本数量相近的情况下，可以更好地反映每个类别的性能。
Micro F1是所有类别的F1值的加权平均，其中权重为每个类别的样本数。它将所有类别的预测结果汇总为一个混淆矩阵，并计算出整个数据集的精确率、召回率和F1值。Micro F1适用于多分类问题，尤其是在数据集不平衡的情况下，可以更好地反映整体的性能。

总之，Micro F1更关注整个数据集的性能，而Macro F1更关注每个类别的性能。如表1所示：

表1：MicroF1和MacroF1对比图