武汉大学提出软模板SoftProto框架,大幅增强方面词抽取任务

本文介绍了武汉大学的一项研究,提出了SoftProto框架,该框架通过软模板增强方面词抽取任务,有效解决了评论文本中方面词和环境词长尾分布的问题。实验表明,SoftProto框架能显著提升序列标注器在方面词抽取任务上的性能。
摘要由CSDN通过智能技术生成


©PaperWeekly 原创 · 作者|陈壮

学校|武汉大学博士生

研究方向|情感分析、信息抽取等

本文介绍一篇我们发表于 EMNLP-2020 的论文《Enhancing Aspect Term Extraction with Soft Prototypes》,该工作提出基于软模板的 SoftProto 框架来增强方面词抽取任务,旨在解决评论文本中方面词和环境词具有长尾分布的问题。

SoftProto 框架几乎可以与所有的序列标注器进行结合。在多个 SemEval 数据集上的实验表明,软模板的引入大幅度地提升了几个经典序列标注器在方面词抽取任务上的性能。

 

论文标题:

Enhancing Aspect Term Extraction with Soft Prototypes

论文链接:

https://www.aclweb.org/anthology/2020.emnlp-main.164.pdf

代码&数据:

https://github.com/NLPWM-WHU/SoftProto

 

方面词抽取任务

方面词抽取任务(Aspect Term Extraction,ATE)是方面级情感分析中的一个基础性子任务。给定一个评论文本,ATE 的目标是抽取被用户表达了情感的方面短语。例如对于评论“The Bombay style bhelpuri is very palatable.”,ATE 希望抽取出方面词“bhelpuri”。

ATE 在过去二十年间已被广泛研究。早期的研究多致力于设计规则或是手工特征实现抽取。随着深度学习的发展,目前多数研究都将 ATE 当作一个序列标注任务,并设计序列标注器为评论生成对应的标签序列。

 

问题与动机

虽然现有的序列标注方法在 ATE 任务上已经取得了优良的性能,但它们仍然面对一个严峻的挑战:由于缺少包含尾部词的样本,序列标注器可能会收敛到较差的状态。如图 1 所示,在常用的 SemEval 数据集中,大约 80% 的方面词和环境词(即非方面词)都出现不超过 5 次。根据相关研究,在训练样本不足的情况下,神经网络模型很难收敛到最优状态。

▲ 图1 SemEval数据集中方面词(左图)与环境词(右图)的分布

 

为了解决上述问题,我们的基本设想是将样本相互关联起来,从而帮助罕见词的抽取。例如,如果我们将前例中的罕见方面词“bhelpuri”与常见方面词“food”关联起

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值