PanoSent : A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis发表在ACM MM 2024上。作者构建了大规模、高质量的数据集PanoSent,包含多种语言和场景的多模态数据,并开发了基于多模态大型语言模型的推理框架Chain-of-Sentiment,结合释义验证机制,提高了情感分析的准确性和鲁棒性.
论文地址:https://www.arxiv.org/abs/2408.09481
1. 研究背景
多模态对话中的基于方面的情感分析在理解用户观点和意图方面至关重要,但现有数据集和方法存在不足。缺乏大规模高质量的多模态数据集限制了模型训练效果,同时已有方法在处理多模态信息融合和复杂情感分析任务时面临挑战,难以准确提取多模态对话中的情感相关信息。
2. 研究方法
2.1.数据集构建
○ 数据收集:从多个真实世界场景收集多模态对话数据,涵盖不同主题、语言风格和参与者背景,包括日常聊天、产品评论、客服对话等场景,以确保数据集的多样性和通用性。
○ 标注过程:设计详细标注方案,对于每个对话片段,标注多个方面,如说话者、对话轮次、情感极性(积极、消极、中性)、情感强度、目标方面(如提及的产品特性、话题等)以及对应的文本和视觉模态中的关键信息(如文本关键词、图像中的相关对象等),通过多人标注和审核确保标注质量。
○ 数据集统计信息:最终构建的PanoSent数据集包含大量对话样本,统计不同情感极性、强度、方面类别的分布情况,分析文本和视觉模态信息的占比和相关性等,为后续模型训练和评估提供基础。
2.2.模型框架
○ 提出基于多模态大型语言模型(MLLM)的Chain - of - Sentiment推理框架。
图2:Sentica MLLM的示意图概览
○ 利用MLLM强大的语言理解和生成能力,首先对多模态对话文本进行编码,提取语义特征,同时结合视觉模态信息(如图像特征),通过注意力机制或特征融合层将文本和视觉特征进行有效融合。
○ 在推理过程中,采用链式结构,逐步分析每个对话轮次中的情感相关信息,先确定目标方面,再判断情感极性和强度,通过在大规模语料上的预训练和微调,使模型能够准确捕捉多模态对话中的情感细微差别。
○ 引入释义验证机制,对模型生成的情感分析结果进行验证和修正,通过对比不同表述方式的语义一致性,提高结果的准确性和可靠性。
3. 方法
PanoSent中的两项挑战,例如复杂的对话上下文理解、多模态特征提取和认知级别的ABSA推理。为了解决这些问题,论文提出了一种全面的解决方案。
3.1.多模式 LLM 主干网络
目前,LLMs在理解语言语义方面表现出显著的能力。相应地,MLLMs已经开发出来,展现出强大的理解多模态数据的能力。在多模态语言模型的成功基础上,利用它们来帮助解决需要深入了解多模态信息的问题。为此,论文开发了一种新的多模态语言模型Sentica,如图2所示采用了Flan-T5(XXL)作为语义理解和决策的核心 LLM。对于非文本输入,使用多模态模型将信号编码为LLM可理解的表示。由于ImageBind的强大能力,使用ImageBind作为所有三种非文本模态的统一编码器,然后是一个连接ImageBind的线性层到代表投影的LLM。
3.2.CoS推理框架
解决两个任务,即全视角情感六元组提取和情感翻转分析,具有挑战性,这不仅是因为任务定义复杂,还因为对因果推理和触发检测的认知要求。受最近链式思维(CoT)推理范式的启发考虑了一种类似人类的情感理解过程,并提出了一种情感链(CoS)推理框架。之前的情感分析研究表明各种ABSA元素可以在描绘整体情感难题中发挥层次作用。例如,在确定情感极性之前应该检测意见;同样,识别目标和方面比识别意见具有更高的优先级。因此,论文的主要思想是将这两个子任务分解为四个渐进的、链式推理步骤,从简单到复杂。利用Sentica的能力,逐步解决每个步骤,为后续步骤积累关键线索和见解。图2还说明了CoS推理如何与Sentica一起工作。
3.3.基于解释的验证
鉴于本文设计的整个两任务解决方案是一个逐步的过程,一个潜在的问题是CoS可能导致错误积累。例如,第一步中的错误可能会直接影响所有后续步骤的结果。因此,在每个推理步骤中进行验证至关重要。现有工作已经证明,与结构化数据相比,LLMs在理解自然语言方面更出色。这意味着让LLMs直接检查每个获得的k元组的正确性是次优的。
一个更直观的做法是首先通过释义将结构化k元组转换为自然语言表达式,有效地创建一个以不同格式传达相同含义的主张。然后,让LLM检查该主张与给定的对话上下文和信息是否存在蕴涵或矛盾关系。论文将其称为基于转述的验证(PpV)机制。如果关系是蕴涵关系,则验证成功,流程进入下一个推理步骤。如果存在矛盾,则当前步骤将重新运行,直到产生合理结果。此过程不仅确保每个推理步骤都基于已验证的信息还增强了情感分析的整体稳健性,有效减轻了LLMs固有的幻觉的负面影响。
3.4.指令调优
为了赋予Sentica CoS框架的推理能力,进行指令调优,涉及一个三阶段的训练过程。在第一阶段,使LLM能够理解与图像、音频和视频相关联的多模态表示。考虑直接在现有的“文本-X”对数据集(其中“X”表示图像、音频或视频)上进行训练,即输入“X”并让LLM输出相应的标题文本。
在第二阶段,目标是让LLM平稳而准确地执行六重提取过程。考虑使用PanoSent训练集作为监督数据,将相应的指令包裹起来以获得指令微调数据。然后,在数据上训练模型,以掌握对应输入和输出的响应模式。
第三阶段教会Sentica PpV模式。基于先前的指令,构建正确的验证对,具有蕴含关系。同时,通过任意改变k-tuple的元素,在作为反例的释义中创建了对称关系,并在此基础上微调Sentica.
4.实验
4.1.实验设置
○ 将数据集按照一定比例划分为训练集、验证集和测试集,确保各集合在情感分布、方面类别等方面具有相似性。
○ 选择合适的多模态模型作为基线模型进行对比,如基于单模态情感分析模型扩展的多模态模型、其他已有的多模态情感分析框架等。
○ 针对提出的Chain - of - Sentiment框架,调整模型参数(如MLLM的层数、注意力头数量、融合层参数等),采用合适的优化算法(如AdamW、Adagrad等)进行训练,在验证集上监测模型性能,选择最佳模型参数进行测试集评估。
4.2.实验结果
○ 通过对比不同模型在测试集上的准确率、召回率、F1值等指标,表明Chain - of - Sentiment框架在多模态对话基于方面的情感分析任务中显著优于基线模型。尤其在处理复杂情感表达、多模态信息不一致以及低资源场景下表现出更好的性能,能够更准确地提取情感六元组信息,验证了模型框架的有效性和优势。
5. 结论
该研究构建的PanoSent数据集为多模态对话情感分析提供了丰富资源,介绍了一种新的多模态对话ABSA,其中提出了全景情感六元组提取(包括持有者、目标、方面、观点、情感和理由)和情感翻转分析任务,为情感分析提供了全面和全景的定义,与人类情感表达和认知的复杂性相匹配。论文使用PanoSent作为基准,这是一个大规模的高质量数据集,既有人工注释也有自动注释,具有对话上下文、多模态、多语言和多场景的特点。然后,将这些任务与一个有效的情绪链推理框架、一个新颖的MLLM(即Sentica)以及一个基于转述的验证机制进行基准测试,为后续研究提供了一个强有力的基准。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。