[论文笔记-10]ASAP: A Chinese Review Dataset Towards Aspect Category SentimentAnalysis and Rating Predic

题目、作者:

Abstract

1. 写作目的:方面类别情感分析(ACSA)和评论打分预测(Review rating Prediction)(即图1中的5星评价)是检测细粒度至粗粒度情感极性的两个重要任务。ACSA和RP是高度相关的,通常在真实的电子商务场景中联合使用但是大多数公共数据集是分别为ACSA和RP构建的,这可能会限制这两个任务的进一步利用

2. 本文数据集工作介绍:为了解决这一问题,并推进相关研究,我们建立了一个大型的中国餐馆评价数据集,包括中国领先的线上到线下电子商务平台的46,730条真实评价,除了5星的评分,每个评论都是根据它对18个预先定义的方面类别的情感极性手工注释的

一、Introduction

1. ACSA任务介绍:对于评论“Although the fish is delicious, the waiter is horrible!”,ACSA的任务旨在推断对于方面类别食物的情感极性是积极的,而对与方面类别服务的意见是消极的

2.  ACSA任务的意义:下图显示了中国一个流行电子商务平台上一家咖啡店的详细页面。左上角的文本框代表经常提到的方面类别,如食物、卫生,橙色代表积极,蓝色代表消极。

① 对于消费者:用户可以通过点击基于方面的情感文本框查看他们关心的问题。(很好理解,为了吃饭就点“口味赞”,为了拍照就点“装修精美”)

② 对于商家:在基于方面的情感文本框的帮助下,商家可以跟踪他们的菜肴和服务品质。

3. 不可靠评论:指星级(RP)与评论的情感极性不同,如下图

 总之,RP可以帮助商家发现不可靠的评论。

4.  ACSA和RP具有高度的相关性和互补性。ACSA侧重于预测不同方面类别上的潜在情感极性,而RP则侧重于从评论内容预测用户的整体情绪(前者为细粒度,后者为粗粒度)。我们认为这两个任务是高度相关的,如果把它们联合考虑,可以取得更好的绩效。

5. contributions:

① 提供了一个大规模的中文评论数据集,用于方面类别情感分析(ACSA)和评级预测(RP)

② 对ACSA和RP两种常用模型的性能进行了初步探讨

③ 我们提出了一种ACSA和RP任务的联合学习模型。我们的模型在ASAP和SemEval RESTAURANT数据集上都取得了最好的结果

二、Dataset Collection and Analysis

2.1 Data Construction & Curation

首先,我们随机从拥有超过50条用户评论的热门餐厅中检索大量用户评论。

然后,通过4个预处理步骤来保证评审的伦理性、质量和可靠性

(1) 出于隐私考虑,用户信息(如用户id、用户名、头像和后期)被删除。

(2) 筛选50字以下的短评和1000字以上的长评

(3) 如果一条评论中非中文字符的比例超过70%,则该评论将被丢弃

(4) 为了检测低质量的评论(如广告文本),我们构建了一个基于bert的分类器,在一个leave-out测试集中准确率达到97%。(被分类器检测为低质量的评论也被丢弃)

2.2 Aspect Categories

本节主要介绍我们对ACSA的注释细节

1. 我们发现用户提到的方面类别非常多样且细粒度,如下表,评论者实际上在两个与氛围(ambience)相关的细粒度方面种类上表达了相反的情感极性

2. 由于我们发现用户通常查看饭店的位置(例如有个评论是:餐厅是否容易乘坐公共交通到达),所以我们将很多方面替换为位置(Location)

3. 我们总结了经常提到的方面,并将5个粗粒度的类别细化为18个细粒度的类别:我们将方面类别表示为“粗粒度类别#细粒度类别”的形式,例如“食物#味道”和“氛围#装饰”。方面类别和定义的完整列表如下表

2.3 Annotation Guidelines & Process

如表3所示,在一句评论中,当方面类别被明确或隐含地提到时,方面类别的情感极性被标记为1(正面)、0(中性)或-1(负面)

注释步骤:

① 首先,我们将整个数据集随机分成10组,每组分配给2名评估者进行独立的注释;

② 其次,根据标注结果将每个分组分成2个子集,分别记为Sub-AgreeSub-Disagree。Sub-Agree包含两名评估者给出相同注释的数据示例,Sub-Disagree包含两名评估者给出不同注释的数据示例。

对于Sub-Agree,将由其他小组的评审员进行评审。在审查过程中有争议的例子被认为是困难案例

对于Sub-Disagree将由两位项目经理独立审核,然后讨论达成协议注释。经过讨论仍无法解决的案例,也被视为困难案例

③ 第三,对于每一组,将来自两个子集的困难案例交给专家审稿人进行最终决策。

表2展示了注释过程中困难案例和注释指导原则的更多细节。

2.4 Dataset Analysis

1. ASAP数据集中18个细粒度方面类别的分布如下图所示

 2. ASAP的统计数据如表4所示

(从原始餐馆数据集中删除了包含情感极性“冲突”的方面类别的评论) 

3. 相比于Rest14的不同(优势):

① ASAP数据集在训练实例的数量上有很大优势(多);

② ASAP是评论级数据集,Rest14的句子级数据集,ASAP中评论的平均长度要长得多,评论往往包含更丰富的方面信息

三、Methodology

3.1 Problem Formulation

1. 变量定义:

D:训练数据中的用户评论集合

R:一条评论

Z:评论R的长度

N:预定义的细粒度方面类别

K:评论R中提及到的方面类别个数

ai:评论R中提及到的方面词

2. 对于ACSA:目标是预测评论R中方面类别对应的情感极性

我们定义一个mask向量[p1, p2,…,pN]表示方面类别的出现。当R中提到方面类别ai时,pi = 1,否则pi = 0

3. 对于RP:RP的目标是预测g的五星评级分数,它代表了给定评论R的总体评级

3.2 Joint Model

1. 总体介绍:由于RP可以视为一个单句分类(回归)任务→使用BERT来解决;本文联合模型采用了BERT编码器的细到粗的语义表示能力

2. ACSA:

 ​​​​如图所示,首先使用一个共享的Bert编码器对输入评论进行embedding,得到token级的embedding向量H={h1,...,hz}

接下来是一个注意力池(attention-pooling),用于动态地聚合每个方面类别的相关token嵌入,得到第i个方面类别ai所在评论的注意力表示 ri

 

 

 

接下来,将注意力表示ri送入softmax,得到最终预测的情感极性

 

ACSA损失:

 

3. Rating Prediction:

目的:根据评论内容预测评论评级

输入:

由Bert编码器得到输入句子的上下文表示,之后送入全连接层(dense),得到预测的评论评级

 

RP损失:

 

总损失:

四、Experiments

4.1 ACSA

我们实现了几个ACSA基线进行比较。根据编码器结构的不同,这些模型可分为不基于bert模型和基于bert模型,实验结果如下表所示。

下图表示表3例子中,本文的联合模型产生的注意力权重的可视化。

 

4.2 Rating Prediction

对比RP模型的实验结果见下表

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值