对话场景下情感识别研究综述（Emotion Recognition in Conversation）

最新推荐文章于 2025-03-22 16:02:19 发布

耩豇

最新推荐文章于 2025-03-22 16:02:19 发布

阅读量7.9k

点赞数 10

分类专栏：文本情感分析

本文链接：https://blog.csdn.net/qq_33858719/article/details/102670370

版权

本文概述了对话场景中情感识别（ERC）的研究，包括任务定义、历史对话建模、常用数据集及CMN、ICON、DialogRNN等模型的进展。ERC任务的关键在于利用历史对话信息来分析当前情感，而近期研究侧重于对话建模，尽管多模态数据集丰富，但在 ERC 任务中的应用尚待深入探索。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

情感分析在文本领域可以说是最好入门但发展至今仍有巨大发掘空间的领域了，分类问题对于文本图像可以说是一通百通的入门练级实验，各种CNN\LSTM\Attention混合的模型既能训练基础也能较高效地运用到实际项目中，从最早的句子、篇章情感分类到aspect-based一些子任务以及CMU一直在做的多模态，可以说都是兼具研究价值和实际意义的。近两年新加坡科技与设计大学学者Soujanya Poria对于对话场景下的情感分析工作（Emotion Recognition in Conversation）也逐渐受人关注。以下的内容是基于Soujanya Poria今年写的ERC综述来总结的。

ERC任务定义

虽然也是最基本的文本分类，但是ERC的关键在于如何对于历史对话建模来分析当前说话人这句话的情感倾向。比如下图对u6情感分类，就要加入u1到u5的信息来建模，当然要使用的utterence个数是自己定的。
在这里插入图片描述
这个方向是和学长在调研多模态情感识别发现的，ERC这个任务本身是可以用多模态来做的，但是Soujanya Poria的几篇论文看下来并没有过多关注多模态表示学习，而是将研究重点放在了历史对话建模上。本来我做过语音的单模态项目，实验时用了南加州的IEMOCAP数据集，当时我们在上面的最高Recall大概65左右，用的类似Multiway-attention这种不算复杂模型结构，CMU的多模态也用了IEMOCAP数据集，语音文本视频三模态到现在最高也能达到了80多，这个数据集特殊在于它是以两人对话的形式，所以可以取出单句utterence来做分类，也可以像ERC任务里一样用历史对话来分析当前utterence，但是Soujanya Poria的几篇论文里在IEMOCAP数据集上效果似乎并没有比CMU组的要好，话说这里不得不吐槽一下这个数据集情感明明总共有9类情感，处于数据量的问题有的论文只用了6类，有的就用了4类，这有时候难得比较…当时本来觉得是不是ERC这个方向有问题，只分析当前utterence就好了嘛，还要知道历史对话反而没有提升不是瞎耽误了，后来仔细看了看论文又自己思考了一些，ERC这个任务特殊性就在于它的历史对话，当前utterence的分析倒是弱化了（但当前的信息还是用上了），更像是一种根据历史对话来半预测当前的情感流向，有些简单的句子比如“yes”可能在文本或者语音下并不足以准确分析出感情，图像也可能是嘴上笑嘻嘻心里MMP的情况。
在这里插入图片描述历史对话的信息在这时就能起到作用，引入历史对话相当于问答中引入了外部知识，另外其实这个任务也可以扩展出更多其它用途，比如分析各个说话人的用户画像，电商客服对话或者社区问答中的aspect-based问题、分析对面的情感倾向来生成回复、以及一些反讽、隐式情感的分析，这些都是只看单句无法分析的，其实像今年ACL南理工的那篇 Emotion-Cause Pair Extraction: A New Task to Emotion Analysis in Texts 在文档中分析情感的产生原因也可以在对话上做。不过其实说到底历史对话建模很早也开始做了，之前看的记忆网络就是差不多的例子，近些年的ERC论文更对话建模上的工作，其实既然数据集很多都是多模态的，不知道表示学习这方面有没有什么突破性的思路。