Weakly-supervised Text Classification Based on Keyword Graph,EMNLP2021

该研究提出了一种新的弱监督文本分类方法,通过构建关键词图来考虑关键字之间的相关性。在每次迭代中,利用自监督任务训练子图注释器生成伪标签,进一步训练文本分类器。实验表明,这种方法在长文本和短文本分类中均优于基线方法。
摘要由CSDN通过智能技术生成

在这里插入图片描述
一般来说弱监督文本分类采用的方法都是通过找寻和标签类别的相似词来代表整个类,然后通过关键词对无标签数据进行伪标签派生。但是现有的方法对关键字的处理是独立的,因此忽略了关键字之间的相关性。因此,本文提出了一个能够引入关键词之间相关性的方法。具体来说,在每次迭代的过程中,首先构造一个关键字图,因此分配伪标签的任务被转换为注释关键字子图。为了提高标注质量,引入了一个自监督任务对子图标注器进行预训练,然后对其进行微调。利用子图注释器生成的伪标签,我们训练一个文本分类器来分类无标签的文本。
文本聚类一个例子说明关键词之间相关性的问题。
在这里插入图片描述
比如window,是在指电脑操作系统还是指汽车的窗户,在不同的情境下是不同的。当其上下文出现car,wheel等词的时候,就大概是在说汽车了。因此关键词之间关联性的引入还是有必要的。

Method

Problem D

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

五月的echo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值