MSML-BERT 模型的层级多标签文本分类方法研究
1、背景
1、作者(第一作者和通讯作者)
黄伟,刘贵全
2、单位
中国科学技术大学
3、年份
2022-03-16
4、来源
计算机工程与应用
2、四个问题
1、要解决什么问题?
当前方法使用相同的模型结构来预测不同层级的标签,忽略了它们之间的差异性和多样性。并且没有充分地建模层级依赖关系,造成各层级标签尤其是下层长尾标签的预测性能差,且会导致标签不一致性问题。本文应对以上问题提出了新的模型。
2、用了什么方法解决?
将多任务学习架构引入,提出了MSML-BERT模型。该模型将标签结构中每一层的标签分类网络视为一个学习任务,通过任务间知识的共享和传递,提高各层级任务的性能。
3、效果如何?
本文在RCV1-V2、NYT和WOS数据集上进行了充分的实验,结果显示该模型的总体表现尤其是在下层长尾标签上的表现超过了其他主流模型,并且能维持较低的标签不一致比率。
4、还存在什么问题?
论文笔记
0 摘要
作者在摘要中提出了层级多标签文本分类所存在的一些问题,并提出来了新的模型,给出了本篇论文的创新点:
1、多任务学习架构
2、多尺度特征抽取模块(等于“CNN”)
3、多层级信息传播模块(等于“向量拼接”)
4、层次化门控机制
摘要的最后,作者经过三个数据集的实验,表明了提出的模型在数据集上效果良好。
作者总结了当前HMTC(Hierarchical Multi-label Text Classification,层级多标签文本分类)方法面临的两大问题:
(1)使用相同的模型结构来预测不同层级的标签,忽略了不同层级和粒度的标签之间的差异性和多样性,导致对各层级标签的预测性能较差;
(2)没有显式和充分地建模层级依赖关系以及引入了不必要的噪音,造成对下层长尾标签的预测性能尤其差,并且会导致标签不一致问题。
总结的说:用一个模型预测多个层级的标签并不准确;没有使用到层级的标签信息。
针对问题(1):本文设计了多尺度特征抽取模(Multi-scale Feature Extraction Module, MSFEM)用于捕捉不同尺度和粒度的特征,形成不同层级分类任务所需要的各种知识,以提高各层任务的预测性能;
针对问题(2)ÿ