©PaperWeekly 原创 · 作者|陈壮
学校|武汉大学博士生
研究方向|情感分析、信息抽取等
本文介绍一篇我们发表于 EMNLP-2020 的论文《Enhancing Aspect Term Extraction with Soft Prototypes》,该工作提出基于软模板的 SoftProto 框架来增强方面词抽取任务,旨在解决评论文本中方面词和环境词具有长尾分布的问题。
SoftProto 框架几乎可以与所有的序列标注器进行结合。在多个 SemEval 数据集上的实验表明,软模板的引入大幅度地提升了几个经典序列标注器在方面词抽取任务上的性能。
论文标题:
Enhancing Aspect Term Extraction with Soft Prototypes
论文链接:
https://www.aclweb.org/anthology/2020.emnlp-main.164.pdf
代码&数据:
https://github.com/NLPWM-WHU/SoftProto
方面词抽取任务
方面词抽取任务(Aspect Term Extraction,ATE)是方面级情感分析中的一个基础性子任务。给定一个评论文本,ATE 的目标是抽取被用户表达了情感的方面短语。例如对于评论“The Bombay style bhelpuri is very palatable.”,ATE 希望抽取出方面词“bhelpuri”。
ATE 在过去二十年间已被广泛研究。早期的研究多致力于设计规则或是手工特征实现抽取。随着深度学习的发展,目前多数研究都将 ATE 当作一个序列标注任务,并设计序列标注器为评论生成对应的标签序列。
问题与动机
虽然现有的序列标注方法在 ATE 任务上已经取得了优良的性能,但它们仍然面对一个严峻的挑战:由于缺少包含尾部词的样本,序列标注器可能会收敛到较差的状态。如图 1 所示,在常用的 SemEval 数据集中,大约 80% 的方面词和环境词(即非方面词)都出现不超过 5 次。根据相关研究,在训练样本不足的情况下,神经网络模型很难收敛到最优状态。
▲ 图1 SemEval数据集中方面词(左图)与环境词(右图)的分布
为了解决上述问题,我们的基本设想是将样本相互关联起来,从而帮助罕见词的抽取。例如,如果我们将前例中的罕见方面词“bhelpuri”与常见方面词“food”关联起