1.摘要
多模态情感识别是人工智能领域的一个活跃的研究课题。它的主要目标是整合多种模态(如听觉、视觉和词汇线索)来识别人类的情绪状态。目前的工作通常假设基准数据集的准确情感标签,并专注于开发更有效的架构。但由于情感固有的主观性,现有数据集往往缺乏高标注一致性,导致潜在的不准确标签。因此,建立在这些数据集上的模型可能难以满足实际应用的需求。为了解决这个问题,提高情感标注的可靠性至关重要。在这篇论文中,我们提出了一个新的任务叫做“可解释的多模态情感推理(EMER)”。与以前主要集中于预测情绪的作品相比,EMER更进一步,为这些预测提供了解释。只要预测情绪背后的推理过程是可信的,预测就被认为是正确的。本文介绍了我们在EMER上的初步工作,其中我们引入了一个基准数据集,建立了基线模型,并定义了评估指标。同时,我们注意到整合多方面能力以应对EMER的必要性。因此,我们提出了影响计算中的第一个多模态大语言模型,称为AffectGPT。我们的目标是解决标签歧义的长期挑战,并为更可靠的技术指明道路。此外,EMER提供了一个机会来评估音频视频文本理解能力的最新多模态LLM。为了便于进一步的研究,我们将代码和数据发布在:https://github . com/zero qiaoba/affect GPT
- 多模态情感识别目标:整合多种模态识别人类的情绪状态。
- 论文提出了一个新的任务: 可解释的多模态推理EMER
- 可解释性在于:为预测结果提供了解释
- 提出一个数据集,作为基准
- 情感计算的第一个大模型AffectGPT
- 目标:解决标签歧义的长期挑战,更可靠的技术发展
2.数据集
该文章提出的数据集是新颖的,其独特之处在于:
每个标注者从四个方面标注情感线索:
1)面部表情和肢体动作;
2)声调和语调;
3)演讲内容;
4)视频内容、环境和其他线索。
线索总结:对于每个样本,三个注释者从四个方面提供线索。为了总结所有线索,我们利用chat GPT并使用图1中的提示。但是,我们仍然在生成的结果中观察到一些重复的表达式。因此,我们手动检查并优化输出。
目的:使用gpt的智能性对线索进行总结。
一段视频的多段描述如下。请将这些描述总结如下:
1.请将“线索描述”的多个段落的主语统一为“他”
2 .请将“线索描述”的多个段落进行总结,删除重复的单词、短语或句子,并用完整的句子描述最终结果
3 .检查标点符号
情感总结:在这一步中,我们使用ChatGPT从汇总的线索中推断情绪状态,因为这一策略比MER2023中的原始标签提供了更微妙的情绪。然而,我们在输出中观察到一些不可靠的情绪。为了解决这个问题,我们使用few-shot
ChatGPT进行情感摘要。提示如图2所示。
请总结一下这个人的情绪状态:投入:
他看起来很开心,其实很焦虑。
输出:焦虑
线索和情感的结合:我们把情绪和线索组合成一个段落:在这些“线索”的辅助下,我们可以推断出人物的情绪状态为“情绪”。然后,我们人工评估这个推理过程的合理性,得到最终的描述。
总结:

可解释型多模态情感推理==(线索+情感——>预测情感)
什么是可解释性:
我在这里的理解就是,我有一个很合理的证据去推断出当前的情感。这个证据就是线索和情感。线索是关键信息的提炼,情感是关键信息表征的情感内涵的提炼。这两个因素很大程度上能够指向一个合理的情感,且这个过程是人工可以评估的,那么我的情感预测就是可解释的。
3.任务解决思路
直接方法:使用多模态逻辑线性模型,因为这些模型能够处理各种多模态理解任务。
<

本文探讨了多模态情感识别中的挑战,提出新的任务EMER,强调可解释性。AffectGPT被设计用于解决标签歧义,通过整合多种能力,特别是音频-视频-文本理解。研究构建了数据集,定义了自动和人工评估指标,揭示了现有技术的局限性并展示了AffectGPT的优势。


最低0.47元/天 解锁文章
1525

被折叠的 条评论
为什么被折叠?



