《Multi-source data fusion for aspect-level sentiment classification》论文阅读笔记

本文提出了一种基于多源数据融合的体层情感分类方法,利用BERT生成方面特定的句子表示。通过整合方面级、句子级和词汇级情感数据,借助多任务学习提升模型性能。实验表明,模型在笔记本电脑和餐厅数据集上的准确性及宏F1值显著优于基线。
摘要由CSDN通过智能技术生成

文章名:《Multi-source data fusion for aspect-level sentiment classification》

作者 Fang Chen∗, Zhigang Yuan, Yongfeng Huang

年份 2020

1.Introduction

神经网络的良好性能依赖于足够大的训练语料库。然而作为一个细粒度的情感分析任务,方面级的情感标注尤其昂贵。因此,现有的方面级语料库相对较小。由于现有的方法通常只基于领域特定的方面级语料库来训练模型,训练语料库的缺乏极大地限制了系统的性能。情绪分析系统可以从使用多域多粒度语料库的多任务学习中获益。作者提出了基于多源数据融合的体层情感分类方法。利用来自Transformers(BERT)[23]的双向编码器表示来生成方面特定的句子表示,用于方面级别的情感分类。作者设计了一个统一的框架来整合来自方面级语料库、句子级语料库和词汇级情感词汇的数据。通过多任务学习将模型应用到体层、句子层和词层的情感分类任务中。使用多域语料库训练模型,通过多源数据融合,从各种可用资源中学习更丰富、更广泛的情感知识。

2. Related work

2.1. Aspect-level sentiment classification

Fan等人提出了一种细粒度注意机制,以减轻粗粒度注意机制中的信息丢失。多粒度注意允许模型生成更好的句子和方面表示。

2.2. Multi-source data fusion

2.3. Language model pre-training

在下游任务中使用预先训练的语言模型有两种策略:基于特征的方法和微调方法。基于特征的方法从语言模型中收集单词嵌入,并在不同的下游任务中使用这些学习到的表示作为特征。相比之下,微调方法使用特定于任务的数据集直接微调预训练模型,从而消除了特定于任务的模型体系结构的需求。BERT是基于深度双向变换器的预训练语言模型。该方法使用大量的未标记语料库对两个预测任务进行预训练:the masked language model和下一个句子预测。语言模型预训练允许BERT为下游任务生成更好的上下文表示。本文BERT主要被用于句子级情感分类。

3. Our approach

3.1. Overview

首先,我们使用一种统一的形式来表示来自方面级语料库、句子级语料库和词汇级情感词汇的数据。然后,利用BERT将输入序列编码成包含语义和情感信息的向量。最后,将输出向量输入到情感分类器中进行体层、句子层或词层的情感分类。

3.2. BERT

对于令牌的输入序列{w1,w2,...,wN},BERT首先构造标记表示{E1,E2,...,EN}通过对标记嵌入、段嵌入和位置嵌入进行求和。令牌表示随后由相同层的堆栈进行编码。每一层由一个多头自我注意子层和一个位置全连通子层组成。具体来说,

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值