论文阅读（2019）SemEval-2019 Task 3: EmoContextContextual Emotion Detection in Text

最新推荐文章于 2024-05-26 09:30:42 发布

小陳 fighting

最新推荐文章于 2024-05-26 09:30:42 发布

阅读量413

点赞数

文章标签：自然语言处理深度学习机器学习

本文链接：https://blog.csdn.net/m0_50144409/article/details/123338492

版权

摘要

SemEval-2019任务3： EmoContext:文本中的上下文情感检测。

缺乏面部表情和声音使得检测文本中的情绪成为一个具有挑战性的问题。例如，作为人类，在阅读“你为什么从来不给我发短信！”可以将其解释为悲伤或愤怒的情绪，机器也存在同样的模糊性，然而，对话的上下文有助于检测情绪

一、介绍

注意，在第一个例子中,“我开始哭了”会被大多数人认为是“悲伤”,然而考虑到上下文，它被证明是一种“快乐”的情绪。类似地，在第二个例子中，最后一轮“尝试做一次”很可能被认为是“其他”，然而，大多数人会再次判断它对给定的上下文“生气”。

二、任务

问题定义：在一个文本对话中，给定一个话语及其前两次语境，将话语的情绪分为以下几类:高兴、悲伤、愤怒或其他。

三、数据收集

1.对话收集和处理

用户与代理的交互中挖掘的对话被定义为3个值的元组：用户-话轮1(用户的话语)、会话代理-话轮1(代理的响应)、用户-话轮2(作为对代理的响应的用户话语)。考虑了一年内用户与代理的交互，随机抽取了超过200万个对话，进行处理和数据清理

攻击性过滤
个人身份信息过滤
语言过滤（只保留英语）

2.训练数据集创建

在训练数据集中，故意对来自情感类的对话进行过采样，以帮助参与者使用大量的情感类数据

3.评估数据集创建

保持了情感类在评估数据集中的自然分布，随机抽样并注释了两个评估集，Test1和Test2

4.情感类别标注

为了这个情感类别标记的特定任务，50名人类法官被训练。给定一个对话，即一个有两个先前话轮作为语境的话语，要求法官将该话语标注为属于以下四类之一:快乐、愤怒、悲伤或其他。所有的对话由7位人类评委评判，多数人的一致意见作为最终的类别标签。

四、数据分析

分析对话中的话语，这些话语是由情感类别的人类法官来判断的

1.字数

2.单字

3.表情

五、结果

NELEC：使用词汇特征的组合，如单词和字符图，以及额外的信号，如情绪强度、效价-唤醒-优势分数。此外，他们使用来自神经模型的成人、攻击性和情感分类器的分数。利用这些特征，作者训练了一个Light-GBM树(Ke等人，2017)，它比他们基于深度学习的架构实现了更好的性能
SymantoResearch：采用多任务学习来更好地分类其他类和情感类。通过将这种架构与微调的BERT (Devlin等人，2018年)和USE (Cer等人，2018年)模型相结合，作者能够区分三种情绪(悲伤、快乐、愤怒)，并更准确地将它们与其他情绪(其他情绪)区分开来
ANA：使用微调的BERT模型和分层LSTMs的集合，其中文本的语义和情感内容通过GloVe，ELMo和DeepMoji (Felbo等人，2017年)进行编码，随后上下文LSTM对整个对话进行编码以进行预测。
CAiRE HKUST：使用基于特征的模型和端到端神经模型的组合的实验。基于特征的模型使用各种预训练的单词嵌入和情感嵌入，并将它们与逻辑回归和XGBoost相结合。对于端到端神经模型，考虑对话的顺序性质的分级模型的性能更好
SNU IDS：提出了几种方法来缓解由于训练数据和测试数据之间的类别分布差异所引起的问题。作者还提出了一种结合字符和单词嵌入的半分层神经架构，该架构在先前话语的上下文中有效地编码话语
THU-HCSI：由三个基于神经网络的神经网络模型组成，分别训练用于不同的基本任务-四种情绪分类、生气-高兴-悲伤分类和其他-或非分类。作者使用多个投票步骤来组合这些基本分类器的预测，从而产生更准确和更稳健的模型性能
Figure Eight：使用迁移学习模型的集合来捕获话语的表示。使用ULMFiT (Howard和Ruder，2018)中描述的复杂微调技术，使用预训练语言模型的迁移学习优于从头训练的模型。

快乐类的系统性能不如其他情感类的好，这在很大程度上是因为中性话语和快乐话语之间存在着天然的模糊性。例如，像“早上好”这样的问候可以被一些人认为是表达一种快乐的情绪，而其他人则认为是中性的。大多数系统对悲伤情绪类表现最好

六、分析

BiLSTMs/lstm是最常用的神经模型。少数团队使用GRU 和CNN模型，大多数团队采用一些注意力机制的变体来增强其模型的性能。使用BERT、ELMo、ULMFit进行迁移学习是顶级团队的普遍选择，几乎所有团队都使用他们最好的模型来创建最终模型。

GloVe是使用最频繁的。BERT和ELMo是迁移学习最受欢迎的选择。NTUA-SLP嵌入也被用来利用其情感信息。利用了Deepmoji和Emoji2Vec来编码表情符号所表达的情感内容。使用“ekphrasis”包进行标记化、单词规范化和单词切分