META: Metadata-Empowered Weak Supervision for Text Classification,EMNLP2020

本文提出META框架,利用元数据作为弱监督源进行文本分类。通过构建text-rich网络,结合种子词和motif模式,进行伪标签生成、分类器训练和种子扩展,提升分类效果。
摘要由CSDN通过智能技术生成

在这里插入图片描述
本文考虑在弱监督文本分类情境下使用元数据(metadata),利用元数据作为一个额外的薄弱监督的来源。具体来说,本文将文本数据和元数据组织到一个文本丰富的网络中,并采用motif来捕获元数据的适当组合,并在迭代过程中对motif实例以及种子词进行排序,选择重要的motfi作为种子motif。

Introduction

除了文本信息之外,元数据信息(例如,作者、出版年份)在各个领域(例如,新闻文章、社交媒体帖子和科学论文)都可以广泛获得,它可以作为一个强大的、互补的弱监督来源。
在这里插入图片描述
元数据通常是多类型的,每种类型和类型组合可能具有非常不同的语义,可能并不同等重要。而且,即使是单一元数据类型中的实体也可能是嘈杂的。图1(a)中的例子指出,在进行单纯的文本分类时,年份没有作者那么有用,因为一个作者和可能专注于一个领域,其领域对分类的结果具有明显的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

五月的echo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值