Emotion Cause Extraction on Social Media without Human Annotation论文阅读笔记【2023提取情感原因】

目录

🎯基本信息

🎯研究背景

🎞️内容概述

🚩研究内容

CBR介绍

构建的新的情感原因数据集COVID19ECE

跨级ECE任务形式化介绍

四种句法因果模式

模型介绍

数据集收集

🎯实验设置

数据集:【social media ECE dataset and COVID-19 related】

🎯实验分析

实验结果

实验结论

Ablation Study on RGPS

The Size of Rule-Annotated Data

Discussion on Human-Annotated Data

Generalizability Beyond the Rules

🎞️内容总结

✅未来研究方向

👀个人总结

不足

优点

📚知识拓展


🎯基本信息

📋标题:
Emotion Cause Extraction on Social Media without Human Annotation
🎓作者:Xiao Debin,Xia Rui,Yu Jianfei
🗓️出版期刊:Findings of the Association for Computational Linguistics: ACL
🗓出版时间:2023
📍影响因子:
🎓作者单位:Nanjing University of Science and Technology【南京理工大学】
💭引用:
🌟关键词:提取情感原因(ECE)、不依赖人工标注、COVID19、自动标注/注释


🎯研究背景

挑战:缺乏细粒度的标注

研究目的:识别文本数据中给定情绪表达的潜在原因。

之前研究存在的不足:【前面的研究分为两种类型】

  1. 基于规则的无监督方法:提取的性能上存在局限性

  2. 使用人工标注数据的有监督机器学习方法:受限与标注的可用性,难以在不用领域间推广。

本文亮点:

  1. 提出的ECE新框架无需依赖人工标注即可实现较高的提取性能和泛化能力。【框架以基于规则的方法为核心,并辅以专门的训练策略。】

  2. 设计了一个规则系统可以获取大量细粒度标注数据和发现因果模式。

🎞️内容概述

提出了一种基于成分的规则(Constituent-Based Rule, CBR)方法,通过利用情感和原因表达中的句法模式来提取情感原因,并在不依赖人工标注的情况下获得了一个大型的规则标注数据集

其次,介绍了一种规则引导的伪监督学习(RGPS)框架,用于开发社交媒体情感原因提取的通用系统。该方法通过屏蔽提示词,在规则标注的数据集上训练一个模型,并包括一个用于迭代学习的标签完善模块。

🚩研究内容

CBR介绍

  1. 基于规则并且依赖于汉语中的成分句法结构,采用了基于成分解析树的精心设计规则,提高了跨级ECE性能并实现了高精度提取。

  2. 通过屏蔽重要的规则通则缓解过拟合问题

  3. 通过迭代训练提高数据标签的多样性和准确性

构建的新的情感原因数据集COVID19ECE

跨级ECE任务形式化介绍

给定一个帖子 S,其中包含 N 个标记序列 S = [w1, w2, ..., wN ],以及 S 中的注释情感表达 E = [e1, e2, ..., eK],跨度级 ECE 任务旨在从 S 中检测激发情感表达的情感起因跨度的边界。【原文如上,看得不是很懂】

四种句法因果模式

在模式 A 中,如图 1(a)所示,相应的提示词类别是介词或连词。在成分解析中,提示词的类别用 "P "表示介词,其父节点类型为 "PP"(介词短语)。当它的右子节点属于 "IP/VP/NP "时,右子节点就会被识别为潜在的原因成分。具体来说,在带有明确情感词 "害怕 "的输入文本中,我们首先匹配介词提示词 "因为"。然后,我们检查子树的模式是否与模板相匹配。如果验证成功,我们就可以确定原因成分在树中的位置,并将相应的节点映射到原因跨度 "流行病爆发了 "中。【大多数的CBR规则可以兼容中英文】

模型介绍

屏蔽规则:随机屏蔽特定比例的因果线索词和情感线索词,可以让模型更多地关注其它有效和有意义的信息,也能缓解过拟合。例如图中绿色和红色的[MASK]标记分别代表倍屏蔽的因果线索词和情感线索词。

使用到的预训练模型:Bert; 使用Conditional Random Field layer预测输入帖子的标签。

图片流程介绍:CBR 生成的标签是有限的,而且往往不准确。经过初步实验,我们发现使用伪标签进行初始训练得到的模型已经明显优于基于规则的方法。因此,我们提出了标签细化方法在训练过程中反复更新原始标签。具体来说,我们使用初始规则标签在屏蔽规则标注的数据集 D′ r 上训练初始模型 θ(0)。在随后的迭代中,我们将上一轮模型在训练集上的预测标签作为监督标签来训练本轮模型。因此,在第 t 次迭代中,模型的输出为 ˆ y(t) = BERT-CRF(x;θ(t))。在每次迭代中,我们都会使用上一次迭代中已经收敛的模型来初始化本轮的模型。原始规则标注数据集中的信息会在迭代训练过程中传播。随后的模型将在一个新的精炼数据集上进行训练,该数据集具有更高的准确性和更丰富的信息。

 

数据集收集

1、三个注释员对选取的部分数据进行情感原因的人工标注,他们需要注释微博上与情感词库预先匹配的情感词【“Event-driven emotion cause extraction with corpus construction” 2016】对应的原因跨度。

 

2、我们使用 Lee 等人(2010b)【“Emotion cause events: Corpus construction and analysis” 】提出的因果线索词词典和 Gui 等人(2016a)【“Event-driven emotion cause extraction with corpus construction.” 】提出的情感词词典进行关键词匹配。请注意,我们对上述两部词典稍作了修改。我们使用伯克利神经解析器(Kitaev 和 Klein,2018 年)【“Constituency parsing with a self-attentive encoder.” 】执行 CBR,对预处理后的语料库进行自动注释。我们最终获得了一个包含约 40 万条帖子的规则注释数据集。

🎯实验设置

数据集:【social media ECE dataset and COVID-19 related】

COVID10-ECE[自己构建的]、CoEmoCause[引用21年的文章]

数据集信息:

COVID19-ECE:三个注释员对选取的部分数据进行情感原因的人工标注,他们需要注释微博上与情感词库预先匹配的情感词【“Event-driven emotion cause extraction with corpus construction” 2016】对应的原因跨度。【这里看不到是个什么意思,想象不出来数据集的形式】

CoEmoCause:2021年构建【“Coemocause: A chinese fine-grained emotional cause extraction dataset.”】,5195篇有跨度级注释的帖子,九种情感类别【本文实验中删除了三种】

数据集划分:将 COVID19-ECE 和 CoEmoCause 分成训练集、验证集和测试集,其中训练集、验证集和测试集的比例分别为 [75%, 10%, 15%] 和 [50%, 25%, 25%]。【这里是不是需要说明一下为什么两个数据集划分的比例不一样,一般使用50%的数据集做训练的情况还是比较少见的,通过我目前阅读的论文来看】

评价指标:

P、R、 F1

实验设置:

使用 Huggingface Transformers(Wolf 等人,2020 年)【“Transformers: State-of-the-art natural language processing.” 】的 PyTorch 版本实现了我们的模型。我们对 BERT/RoBERTa 使用 1e-5 的学习率,对 CRF 层使用 1e-2 的学习率。优化器optimizer:AdamW

对比的基线模

  • w/o human annotations: WBR(Word-Based Rules)【2014】、CBR【ours】w/ rule-annotated data: CBR+RGPS【our】

  • w/few human annotations: 【使用额外的200个人工注释实例作为补充】Supervised Training【2021】、Self-Training【2021】w/rule-annotated data: CBR+BERTCRF+FT、CBR+RGPS+FT(ours)

  • w/full human annotations: BERT-CRF【Supervised Trainiing】【2021】

🎯实验分析

实验结果

实验结论

  • 在无人工标注的情况下,我们提出的CBR在所有指标上都由于WBR, 并且取得了高精度分数;

  • 与基于规则的方法相比, CBR+RGPS 方法在召回率和 F1 分数上都有显著提高。这表明,RGPS 可以改善基于规则的方法存在的低覆盖率问题。但在 CoEmoCause 数据集上精确度明显下降,这可能是由于数据集分布的差异造成的。

  • w/few, CBR+RGPS+FT 模型比 CBR+RGPS 基线有了进一步的改进。与需要 1,300 个人类标注实例的完全监督基线相比,它取得了相当甚至更好的结果【这里如果是最后一个的话,性能对比是一半一半的】。CBR+RGPS+FT 还以最高的 F1 分数超过了半监督和 CBR+BERT-CRF+FT。这些发现表明,规则标注数据可以为模型提供有价值的知识,而我们提出的 RGPS 模块可以帮助有效利用这些规则标注数据。

Ablation Study on RGPS

规则屏蔽(RM)和标签细化(LR),结果如下:

实验结论:

  • 规则屏蔽在 RGPS 中起着至关重要的作用,通过使用规则屏蔽,模型能够理解情绪和原因之间的深层联系,从而提高性能。当提示词的屏蔽比例为 60%-80%【这个没有表或图体现】 时,RGPS 能达到最佳效果。

  • 标签细化有助于提高模型的泛化性能和召回率,尽管代价是牺牲一定的精确度。

The Size of Rule-Annotated Data

探讨了不同大小的规则标注数据的性能变化。我们从规则标注的数据集中均匀地抽取数据,并在此基础上训练神经模型。X 轴为规则标注数据的数量,Y 轴为测试集上跨度级别的 F1 分数。

实验结果

  • 当规则标注的实例数低于 10K 时,有明显的增长趋势。此后,增长速度减慢,当数据量达到约 25K 时,增长速度收敛。

  • 通过将 COVID19-ECE 数据集上的训练数据进一步扩展到约 50K 个实例,我们的 CBR+RGPS 方法的性能接近于使用 600 个人工标注实例训练的模型。

  • 与 CBR+RGPS-0 相比,经过一轮标签完善的模型 CBR+RGPS-1 表现出更优越的性能,这证明了我们方法的有效性。

Discussion on Human-Annotated Data

如图 4 所示,我们在 COVID19-ECE 和 CoEmoCause 两个数据集上探索了不同模型对不同规模人类标注数据的依赖性。X 轴表示人类标注数据的数量,Y 轴表示测试集上的 F1 分数。

  • CBR(25600)+RGPS: 我们提出的训练框架,使用 BERTbase-CRF 为骨干,基于 25600 个规则标注实例进行后训练作为基线。

  • CBR(25600)+RGPS+FT:我们基于 CBR(25600)+RGPS 对模型进行后训练,然后在人类标注的数据上对模型进行微调。

  • 使用预先训练好的中文 T5-small(Fengshenbang 1.0: Being the foundation of chinese cognitive intelligence)作为另一个强基线,并将ECE任务形式化为问题解答(QA)任务。

实验结果

  • 在 COVID19-ECE 数据集中,CBR(25600)+ RGPS+FT 只需要 100 个人类标注的实例就能通过微调达到 47.5% 的 F1 分数。而其他模型则需要 600 或更多的数据从头开始训练才能取得类似的结果。

  • 在 CoEmoCause 数据集中,CBR(25600)+RGPS+FT 的表现也优于其他方法,这表明我们的方法可以更好地减轻模型对人类标注数据的依赖。

Generalizability Beyond the Rules

研究该模型在规则覆盖范围内外的测试集上的泛化能力。

首先,我们根据 CBR 是否能成功匹配实例将测试集分为两个子集。红色表示规则覆盖范围之外的数据,蓝色表示规则覆盖范围之内的数据。所有模型都是在 25600 个规则标注的实例上进行训练的。

实验结果

  • 在规则覆盖范围之外的数据实例上,CBR+RGPS 明显优于 CBR 和 CBR+BERT-CRF。这表明,我们提出的伪监督框架有助于模型泛化到规则覆盖范围之外的数据。

  • 此外,它还提高了规则覆盖范围内数据的提取性能。随着少量人工标注数据的加入,CBR+RGPS+FT(25600) 在规则覆盖范围之外的数据上取得了进一步的改进,但在规则覆盖范围之内的数据上的性能提升有限。这表明,模型在规则覆盖范围外数据上的性能是限制模型整体性能的瓶颈之一。

🎞️内容总结

本文探讨了如何在没有人工标注的情况下建立社交媒体上的情感原因分析系统。首先,我们设计了一种基于显式因果线索词和选区解析树的专用规则方法,然后用它在大规模语料库中注释数据。在此基础上,我们引入了一种策略来缓解规则标注数据集的过拟合问题,并在训练过程中完善标签,以提高模型的泛化和可扩展性。在两个数据集上的实验结果证明了我们方法的有效性。

✅未来研究方向

  1. 本文的工作只考虑了中文微博中的 ECE 任务。研究我们的框架在其他语言社交媒体平台上的有效性可能会很有意义。

  2. 本文只专注于提取当前帖子中表达的情感原因。然而,根据 Cheng 等人(2017)的研究,37% 的情绪起因存在于对话线程中的原始帖子或历史帖子中。因此,未来将我们的工作扩展到更复杂的微博结构将是很有意义的。

👀个人总结

不足

提出的数据集没有给出具体的格式/形式,不是很清楚。[这个也有可能是我第一次阅读该领域的文章,不是很清楚该领域数据集的基本格式和属性,但我觉得有个图或表说明会好很多]

没有提供数据集下载地址和代码下载地址,难以复现/学习【代码开源吗?】

优点

实验很充分,从多个方面进行了对比和分析

论文中给出的图例很清楚,可以很容易理解作者想表达的意思


📚知识拓展

  • 40
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值