A Multi-task Learning Model for Chinese-oriented Aspect Polarity Classification and Aspect Term Extraction(面向中文的方位极性分类和方位项提取的多任务学习模型) 学习笔记
论文亮点
- 本文提出了一个联合模型用于aspect term extraction(方面项提取) 和 aspect polarity classification (aspect极性分类)。
- 论文中提出的模型面向中文,也适应于英文,能同时处理中英文评论。
- 该模型还集成了域自适应的 BERT模型以进行增强(每一个数据集使用一个bert)。
- 模型在七个基准数据集中实现了最先进的性能。
1. 摘要
基于方面的情感分析(ABSA)任务是一个多粒度的自然语言处理任务, 现有的研究大多集中在方面项极性推断的子任务上,忽略了方面项提取的重要意义。此外,现有的研究还没有注意到面向汉语的ABSA任务的研究。
基于局部上下文焦点(LCF)机制,论文首次提出了面向中文的方面级情绪分析的多任务学习模型(LCF-ATEPC),该模型能够同时进行aspect term extraction(ATE)和aspect polarity classification(APC)两个子任务,能够同时对中英文评论进行分析,该模型集成了自适应领域的BERT模型,在四个中文评论数据集和SemEval-2014上取得了最优性能。
2.Introduction
在以往的研究中,主要关注的APC的精度,而忽略了对于ATE的研究,因此,在基于方面的情感分析进行迁移学习时,往往会因为缺少aspect term提取方法而陷入困境。
因此,为了有效的从文本中提取aspect,同时分析情感极性,提出了一种基于方面情绪分析的多任务多语言学习模型(LCF-ATEPC)。该模型基于Multi-head self-attention,集成预训练的bert和局部上下文焦点机制(LCF)。
通过对少量带有aspect和aspect极性的数据进行训练,该模型可以适应于大规模的数据集,可以自动提取各方面信息,预测情绪极值。通过这种方法,模型可以发现未知的方面,避免了手工注释所有方面和极性的繁琐和巨大的成本。基于领域特定方面的情绪分析具有重要意义。
2.1 创新点
- 首次研究了面向多语种评论的结合APC子任务和ATE子任务的多任务模型,为中文方面项提取的研究提供了一种新的思路。
- 第一次将self-attention和局部语境聚焦技术应用到APC中,充分挖掘他们在APC中的潜力。
- 分别设计并应用了双标签输入序列(方面术语标签和情感极性标签),分别适用于ABSA联合任务的SemEval-2014和中文评论数据集。 双重标记提高了模型的学习效率。
- LCF-ATEPC集成了预训练的bert模型。
3.模型
为了提出一种有效的基于多任务学习的方面级情感分析模型,我们采用了BERT-ADA中的域自适应BERT模型,并将局部上下文聚焦机制集成到该模型中。本节介绍LCF-ATEPC的体系结构和方法。
3.1 问题描述
ATE:序列标注任务。{Basp,Iasp,O}
例如“The price is reasonable although the service is poor.“ S={w1,w2…wn} ,其中 S 表示的是这个句子,w 表示的是单词经过Word embedding 之后的向量表示,这里把他叫做token(令牌),这句话的标注是 Y={O,Basp,O,O,O,O,Basp