题目、作者:
Abstract
1. 写作目的:方面类别情感分析(ACSA)和评论打分预测(Review rating Prediction)(即图1中的5星评价)是检测细粒度至粗粒度情感极性的两个重要任务。ACSA和RP是高度相关的,通常在真实的电子商务场景中联合使用。但是大多数公共数据集是分别为ACSA和RP构建的,这可能会限制这两个任务的进一步利用
2. 本文数据集工作介绍:为了解决这一问题,并推进相关研究,我们建立了一个大型的中国餐馆评价数据集,包括中国领先的线上到线下电子商务平台的46,730条真实评价,除了5星的评分,每个评论都是根据它对18个预先定义的方面类别的情感极性手工注释的
一、Introduction
1. ACSA任务介绍:对于评论“Although the fish is delicious, the waiter is horrible!”,ACSA的任务旨在推断对于方面类别食物的情感极性是积极的,而对与方面类别服务的意见是消极的
2. ACSA任务的意义:下图显示了中国一个流行电子商务平台上一家咖啡店的详细页面。左上角的文本框代表经常提到的方面类别,如食物、卫生,橙色代表积极,蓝色代表消极。
① 对于消费者:用户可以通过点击基于方面的情感文本框查看他们关心的问题。(很好理解,为了吃饭就点“口味赞”,为了拍照就点“装修精美”)
② 对于商家:在基于方面的情感文本框的帮助下,商家可以跟踪他们的菜肴和服务品质。
3. 不可靠评论:指星级(RP)与评论的情感极性不同,如下图
总之,RP可以帮助商家发现不可靠的评论。
4. ACSA和RP具有高度的相关性和互补性。ACSA侧重于预测不同方面类别上的潜在情感极性,而RP则侧重于从评论内容预测用户的整体情绪(前者为细粒度,后者为粗粒度)。我们认为这两个任务是高度相关的,如果把它们联合考虑,可以取得更好的绩效。
5. contributions:
① 提供了一个大规模的中文评论数据集,用于方面类别情感分析(ACSA)和评级预测(RP)
② 对ACSA和RP两种常用模型的性能进行了初步探讨
③ 我们提出了一种ACSA和RP任务的联合学习模型。我们的模型在ASAP和SemEval RESTAURANT数据集上都取得了最好的结果
二、Dataset Collection and Analysis
2.1 Data Construction & Curation
首先,我们随机从拥有超过50条用户评论的热门餐厅中检索大量用户评论。
然后,通过4个预处理步骤来保证评审的伦理性、质量和可靠性:
(1) 出于隐私考虑,用户信息(如用户id、用户名、头像和后期)被删除。
(2) 筛选50字以下的短评和1000字以上的长评
(3) 如果一条评论中非中文字符的比例超过70%,则该评论将被丢弃
(4) 为了检测低质量的评论(如广告文本),我们构建了一个基于bert的分类器,在一个leave-out测试集中准确率达到97%。(被分类器检测为低质量的评论也被丢弃)
2.2 Aspect Categories
本节主要介绍我们对ACSA的注释细节
1. 我们发现用户提到的方面类别非常多样且细粒度,如下表,评论者实际上在两个与氛围(ambience)相关的细粒度方面种类上表达了相反的情感极性
2. 由于我们发现用户通常查看饭店的位置(例如有个评论是:餐厅是否容易乘坐公共交通到达),所以我们将很多方面替换为位置(Location)
3. 我们总结了经常提到的方面,并将5个粗粒度的类别细化为18个细粒度的类别:我们将方面类别表示为“粗粒度类别#细粒度类别”的形式,例如“食物#味道”和“氛围#装饰”。方面类别和定义的完整列表如下表
2.3 Annotation Guidelines & Process
如表3所示,在一句评论中,当方面类别被明确或隐含地提到时,方面类别的情感极性被标记为1(正面)、0(中性)或-1(负面)
注释步骤:
① 首先,我们将整个数据集随机分成10组,每组分配给2名评估者进行独立的注释;
② 其次,根据标注结果将每个分组分成2个子集,分别记为Sub-Agree和Sub-Disagree。Sub-Agree包含两名评估者给出相同注释的数据示例,Sub-Disagree包含两名评估者给出不同注释的数据示例。
对于Sub-Agree,将由其他小组的评审员进行评审。在审查过程中有争议的例子被认为是困难案例;
对于Sub-Disagree将由两位项目经理独立审核,然后讨论达成协议注释。经过讨论仍无法解决的案例,也被视为困难案例
③ 第三,对于每一组,将来自两个子集的困难案例交给专家审稿人进行最终决策。
表2展示了注释过程中困难案例和注释指导原则的更多细节。
2.4 Dataset Analysis
1. ASAP数据集中18个细粒度方面类别的分布如下图所示
2. ASAP的统计数据如表4所示
(从原始餐馆数据集中删除了包含情感极性“冲突”的方面类别的评论)
3. 相比于Rest14的不同(优势):
① ASAP数据集在训练实例的数量上有很大优势(多);
② ASAP是评论级数据集,Rest14的句子级数据集,ASAP中评论的平均长度要长得多,评论往往包含更丰富的方面信息。
三、Methodology
3.1 Problem Formulation
1. 变量定义:
D:训练数据中的用户评论集合
R:一条评论
Z:评论R的长度
N:预定义的细粒度方面类别
K:评论R中提及到的方面类别个数
ai:评论R中提及到的方面词
2. 对于ACSA:目标是预测评论R中方面类别对应的情感极性。
我们定义一个mask向量[p1, p2,…,pN]表示方面类别的出现。当R中提到方面类别ai时,pi = 1,否则pi = 0
3. 对于RP:RP的目标是预测g的五星评级分数,它代表了给定评论R的总体评级
3.2 Joint Model
1. 总体介绍:由于RP可以视为一个单句分类(回归)任务→使用BERT来解决;本文联合模型采用了BERT编码器的细到粗的语义表示能力。
2. ACSA:
如图所示,首先使用一个共享的Bert编码器对输入评论进行embedding,得到token级的embedding向量H={h1,...,hz}
接下来是一个注意力池(attention-pooling),用于动态地聚合每个方面类别的相关token嵌入,得到第i个方面类别ai所在评论的注意力表示 ri
接下来,将注意力表示ri送入softmax,得到最终预测的情感极性
ACSA损失:
3. Rating Prediction:
目的:根据评论内容预测评论评级
输入:
由Bert编码器得到输入句子的上下文表示,之后送入全连接层(dense),得到预测的评论评级
RP损失:
总损失:
四、Experiments
4.1 ACSA
我们实现了几个ACSA基线进行比较。根据编码器结构的不同,这些模型可分为不基于bert模型和基于bert模型,实验结果如下表所示。
下图表示表3例子中,本文的联合模型产生的注意力权重的可视化。
4.2 Rating Prediction
对比RP模型的实验结果见下表