一般来说弱监督文本分类采用的方法都是通过找寻和标签类别的相似词来代表整个类,然后通过关键词对无标签数据进行伪标签派生。但是现有的方法对关键字的处理是独立的,因此忽略了关键字之间的相关性。因此,本文提出了一个能够引入关键词之间相关性的方法。具体来说,在每次迭代的过程中,首先构造一个关键字图,因此分配伪标签的任务被转换为注释关键字子图。为了提高标注质量,引入了一个自监督任务对子图标注器进行预训练,然后对其进行微调。利用子图注释器生成的伪标签,我们训练一个文本分类器来分类无标签的文本。
文本聚类一个例子说明关键词之间相关性的问题。
比如window,是在指电脑操作系统还是指汽车的窗户,在不同的情境下是不同的。当其上下文出现car,wheel等词的时候,就大概是在说汽车了。因此关键词之间关联性的引入还是有必要的。
Weakly-supervised Text Classification Based on Keyword Graph,EMNLP2021
最新推荐文章于 2023-03-24 09:25:55 发布
该研究提出了一种新的弱监督文本分类方法,通过构建关键词图来考虑关键字之间的相关性。在每次迭代中,利用自监督任务训练子图注释器生成伪标签,进一步训练文本分类器。实验表明,这种方法在长文本和短文本分类中均优于基线方法。
摘要由CSDN通过智能技术生成