论文推介
An empirical study of Multimodal Entity-Based Sentiment Analysis with ChatGPT: Improving in-context learning via entity-aware contrastive learning
Yang Li新加坡南阳理工大学通信与信息学院(h-index:3),Zengzhi Wang南京理工大学(h-index:5),Li, Ziyan南京理工大学(h-index:4)
期刊:INFORMATION PROCESSING & MANAGEMENT(中科院分区SCI 1区,JCR分区Q1)
标题:使用 ChatGPT 进行多模态实体情感分析的实证研究:通过实体感知对比学习改进情境学习
https://doi.org/10.1016/j.ipm.2024.103724
多模态实体情感分析(MEBSA)是一项复杂的情感分析任务,要求从多模态输入(如文本和图像)中识别实体、它们的类别以及相关的情感。以往的研究通常依赖于大量标注数据,而本研究探索了上下文学习(ICL)减少数据标注需求的潜力。作者提出了一种新颖的基于实体感知的对比学习模型,旨在优化示例选择,从而在小样本学习中提高模型性能。实验结果表明,开发的 ICL 框架表现出优于其他基线 ICL 方法的性能。
关键词:上下文学习;多模态情感分析;大型语言模型;基于实体的情感分析
01 Smmary
1.研究动机与问题
随着社交媒体的普及,越来越多的用户在社交平台上通过各种方式(如文本、图像和视频)分享他们的观点和感受。了解这些帖子中表达的情绪可以改进公司和政府的决策过程。但是传统方法依赖大量标注数据,成本高且耗时。为了解决数据标注难题,本文探索了上下文学习的潜力。如何通过上下文学习高效处理多模态实体情感分析任务,并提升少样本学习的性能?Li等人采用了一种基于实体感知对比学习的上下文学习框架,实验表明其性能优于其他基线方法,甚至在一些任务上超越了微调模型。
2. 理论论证
(1)在多模态情感分析任务中,上下文学习可以减少对大量标注数据的需求,同时保持良好的任务表现。
ICL能够通过少量示例(即上下文)进行类比学习,而无需依赖大量标注数据进行模型训练,因此即使在没有大量标注数据的情况下,模型依然可以执行复杂任务。Dong等人(2022)还指出,模型通过自监督学习方法可以将原始文本数据转换为适合ICL使用的格式,从而进一步减少了对人工标注数据的依赖。此外,ICL还具备较强的泛化能力,能够通过提示设计在不同任务之间实现迁移应用,即使在数据有限的情况下,模型也能保持出色的任务表现。
(2)实体感知对比学习模型能够优化少样本学习中示例选择的质量。
使用大语言模型直接进行零样本学习效果往往不佳,例如在信息抽取和关系提取等任务中。而随机选择示例容易引入与测试样本无关的噪音,导致预测不准确。为解决这一问题,文章参考了对比学习的经典方法,特别是Supervised SimCSE模型,该模型通过最大化相似样本的相似性并最小化不相似样本的差异来训练模型。通过这种方式,可以提高示例选择的质量,使得模型在少样本学习中的效果更好。
3.研究设计
首先研究明确了多模态实体情感分析(MEBSA)任务涉及四个子任务:多模态实体提取(MEE)、多模态实体情感分类(MESC)、多模态实体-情感对提取(MESPE)和多模态实体-类别-情感三元组提取(MECSTE)。然后作者设计了一个基于上下文学习(ICL)的框架,使用大语言模型进行零样本和少样本学习,以减少对大量标注数据的依赖。为了优化少样本学习中的示例选择,设计了一种实体感知对比学习模型,选择与测试样本最相似的训练示例。还通过BLIP模型将图像输入转换为文本描述,提取图像中的实体和情感信息,然后使用设计好的提示来进行多模态情感分析任务。最后评估了模型在不同子任务上的表现,并与其他现有的微调模型进行对比。
4.实证分析
这篇论文的主要结果可以概括如下。所提出的上下文学习框架在多模态实体情感分析(MEBSA)任务中表现优异,尤其是在少样本学习的情况下,通过引入实体感知对比学习模型,有效提升了示例选择的质量,显著提高了模型的性能。与传统的微调模型相比,该方法在多个MEBSA子任务上表现相当,甚至在某些任务上超越了微调模型,尤其是在数据量较小的情况下,ICL方法展示出了较高的效率和实用性。
5.贡献与意义
(1)文章首次在多模态实体情感分析(MEBSA)任务中引入了上下文学习(ICL)方法,提出了一种无需大量标注数据的解决方案。
(2)开发了一个基于实体感知对比学习的示例选择框架,通过优化示例选择,显著提升了少样本学习的表现。
(3)该研究展示了在四个MEBSA子任务中,所提出的框架不仅能够与传统的微调模型相媲美,甚至在某些任务中实现了超越,减少了标注数据的依赖,提升了实际应用的可操作性。
6. 可能的拓展研究点
(1)目前的研究在较小的Twitter数据集上进行,未来的研究可以在更大规模、更多样化的数据集上验证该框架的可扩展性和通用性,以评估其在不同领域的应用效果。
(2)文章使用具有代表性的 LLM ChatGPT 作为开发的框架中的主干模型。然而,ChatGPT 模型有一定的局限性,未来的研究可以探讨使用最新的开源 LLM 和多模态大语言模型 (MLLM) 进行分析。
02 方法
ICL 框架包括三个模块:输入结构、上下文学习和演示示例检索器,如图 1所示。该框架适用于 MEBSA 的所有四个子任务,即 MEE、MESC、MESPE 和 MECSTE。在输入构造模块中,通过生成图像标题和从图像中提取视觉实体、实体类别和视觉情感,将视觉输入转换为文本,转换后的视觉文本将与原始文本输入集成。此外,在演示示例检索器模块中,开发了一种基于对比学习的样本嵌入模型,用于检索测试样本的前 K 个相似样本。为了训练实体感知的对比学习模型,设计了一个评分函数来衡量样本之间的相似性,从而根据相似性构建正负对。在上下文学习模块中,开发了各种特定于任务的提示,以指示模型了解每个 MEBSA 子任务。
图1 基于实体感知演示示例检索器的上下文学习框架
1. 输入构造
本研究利用大语言模型ChatGPT为多模态实体情感分析(MEBSA)任务进行上下文学习,由于ChatGPT只能处理文本输入,视觉输入被转换为辅助句并与原始文本连接。为提取视觉信息,使用图像描述模型BLIP将图像转换为文本描述,同时将实体检测任务处理为视觉问答(VQA),从图像中提取实体和情绪信息。
(1)视觉输入构造
应用BLIP模型将图像转换为文本描述,并使用视觉问答(VQA)任务检测图像中的实体和情感。具体来说,模型回答“图像中的实体是什么?”和“图像表达的情感是什么?”的问题,从而生成对应的文本表示。这些文本描述和情感信息随后被用作辅助句,帮助大语言模型处理多模态输入任务。
(2)多模态输入构造
将图像翻译为三个辅助句,与原始文本输入结合形成多模态输入。由于模型参数复杂,微调LLM有挑战性,因此使用上下文学习方法,通过提供任务说明和示例提示来适应任务。
2. 情境学习
本研究利用ChatGPT进行多模态实体情感分析(MEBSA)的上下文学习。首先,任务指令包括任务描述、输入组件和输出格式。零样本指令通过直接输入测试样本生成输出,但零样本学习在信息提取任务中的表现有限。为了提升效果,研究尝试通过随机选择少量训练样本进行few-shot演示,但这种方法忽略了样本间的语义关系。为此提出了实体感知示例检索器,通过实体感知对比学习模型选择与测试样本语义相似的示例,改进小样本学习的效率。获取ChatGPT的输出后,研究对生成的结果进行后处理,包括调整情感极性的字母大小写以及利用BERT替换异常实体类别。此外,ChatGPT生成的实体列表根据置信度进行排序,并选出最终预测的实体列表。框架注重使用实体感知对比学习模型优化示例选择,并可适用于其他LLM。
3. 基于实体感知对比学习的演示示例检索器
(1)正反实例构造
利用监督SimCSE框架构建有效的正负实例。针对传统数据增强方法可能破坏语义和引入噪音的问题,研究设计了一个评分函数,通过评估样本的相似性来生成有用的正负实例。评分函数考虑了三个因素:主句的语义相似性、视觉输入生成的辅助句及其标签的相似性。RoBERTa用于主句、辅助句和每个样本标签的标记化,并使用余弦相似度进行计算。针对不同子任务的标签,利用元组间的相似度来衡量实体、类别和情感的语义匹配。最终,根据相似性评分,选择相似度最高的样本作为正实例,最低的作为负实例。这一过程在算法1中被进一步展示。
(2)实体感知对比学习
使用广泛应用的对比学习模型Supervised SimCSE作为基础,训练实体感知对比学习模型。训练数据由正负实例组成,正实例在语义上相似,负实例则不相似。主要目标是通过增强正实例对的相似性并最小化负实例对的相似性。使用RoBERTa生成样本表示,并通过神经网络投影层将其转换为标准化嵌入空间。随后,基于余弦相似度计算正负对的距离,使用归一化交叉熵损失函数在小批量内进行优化,通过调节温度超参数来控制相似度计算的效果。
(3)使用实体感知对比学习模型检索相似样本
在推理过程中应用训练好的实体感知对比学习模型来获得每个训练样本和测试样本的隐藏表示,从小规模训练集中检索与测试样本相似的示例。训练样本来自Twitter-15和Twitter-17数据集。相似性计算考虑了主句和辅助句的相似性,使用权衡参数调整其影响。最终选择相似度最高的样本用于上下文学习模块。实验还将本模型与BERT模型进行了比较,如表 1 所示,本模型检索到的样本在主题、类别和情感上与测试样本更为接近,优于BERT模型的检索结果。
表1 实体感知对比学习模型和 BERT 模型检索的少样本之间的比较
03 实验
1. 实验设置
本研究基于Twitter-15和Twitter-17数据集,从中选取部分训练和开发样本,使用三个不同种子创建子集,并对这些数据集进行了统计分析,发现Neutral情感类别样本最多,Negative最少,实体类别主要为人员、地点、组织和事件。
为了开发实体感知对比学习模型,使用监督SimCSE模型作为基础,进行小规模网格搜索确定最佳参数,学习率为1e-5,样本量为8,模型在NVIDIA RTX3090 GPU上进行训练。正负实例通过评分函数构建,使用不同的权衡参数,最终选择5对正负实例对进行训练。所有实验使用PyTorch执行,并通过gpt-3.5-turbo API完成。评估指标包括Micro-F1分数、召回率和精度,用于MEE、MESPE和MECSTE子任务的性能评估,MESC子任务则通过Accuracy进行测量。
2. 比较系统
本研究比较了三类方法在四个MEBSA子任务中的表现。首先,研究了基于ChatGPT的上下文学习方法,包括随机选择的0-shot和10-shot学习,以及通过RoBERTa-large和RoBERTa-large-nli-mean-tokens进行的10-shot学习。这些方法通过特定任务指令适应子任务。随后,提出了实体感知示例检索器,用于优化10-shot学习的上下文示例选择。此外,还比较了多个提取子任务(MEE、MESPE和MECSTE)的系统方法,包括纯文本方法(如BARTNER、SpanABSA、D-GCN)和多模态方法(如UMT、CMMT、MM-BARTNER)。最后,MESC子任务还比较了LM-BEF、GFSC等文本分类方法和多模态情感分类方法(如TomBERT、CapTrBERT、FITE)。
3.主要结果
(1)与 ICL 基线系统的比较
本研究比较了各种上下文学习方法在四个MEBSA子任务上的表现。结果显示,0-shot学习在所有任务上表现有限,尤其是在复杂的MESPE和MECSTE任务中,F1分数低于0.35,表明零样本学习难以应对复杂任务。相比之下,10-shot学习显著提升了性能,提供了更相关的样本,帮助ChatGPT更好理解任务。三种ICL方法中,使用RoBERTa-large-nli-stsb-mean-tokens的10-shot学习表现最佳,优于随机选择的10-shot方法。在Twitter-15和Twitter-17数据集上,本文开发的具有实体感知对比学习的ICL方法表现出色,分别在MEE、MESC、MESPE和MECSTE任务上优于随机选择的10-shot方法,提升幅度为1.37%、5.93%、1.98% 和 1.32%。此外,与RoBERTa-large-nli-stsb-mean-tokens方法相比,实体感知ICL框架在Twitter-17数据集上的性能提升了1.36%、3.77%、2.49% 和 0.75%。这些结果证明了实体感知示例检索器的有效性。
(2)与每个 subtask 的微调模型进行比较
在MECSTE任务中,表2显示使用随机选择的10-shot学习优于所有微调模型,而本文的ICL框架通过有效检索相似样本进一步提升了性能。相比微调模型需要大量数据,LLM凭借内部知识和推理能力能在有限样本下处理复杂任务。
表2 MECSTE 子任务上不同方法之间的比较
如表3所示,在MESPE任务中,ICL框架性能优于大多数微调模型,但略逊于GMP模型,且在召回率上表现最佳。ICL方法倾向于生成比基准标签更多的实体-情感对,导致高召回率但较低精度。
表3 MESPE 子任务上不同方法之间的比较
在MEE和MESC任务中,ICL框架表现不如微调模型,可能因微调模型专门针对任务优化,而ICL无需微调即可处理多个子任务。总体而言,ICL在多元素提取任务中性能与微调模型相当甚至更优,而在单元素提取任务中表现稍逊,但在泛化能力和样本依赖性方面具有明显优势。
4.深入分析
(1)小样本样本数量的影响
实验分析了演示样本数量对小样本学习的影响,如表4所示,结果显示2或5个示例的性能较低,10个示例时达到峰值,超过10个后性能下降。过多的样本引入噪声,降低预测精度。由于Twitter-15和Twitter-17的数据集较小,增加样本数量会导致选择不相关的样本。10个示例足以让ICL框架获得有竞争力的性能,同时减少了计算资源和数据注释的需求。
表4 所提出的方法中演示样本数量的影响
(2)消融研究
为了评估ICL框架中各组件的效率,进行了消融实验。结果表明,删除图像字幕、BLIP-VQA情绪检测或实体检测会导致性能显著下降,证明这些模块在捕捉实体、类别和情感信息方面的重要性。此外,去除实体感知对比学习模型并直接使用SimCSE提取样本也降低了性能,显示设计的评分函数和正负实例构建的有效性。整体而言,实验验证了图像字幕、VQA情绪检测和实体检测及对比学习模块对任务性能的关键贡献。
(3)错误分析
进行错误分析以探索ICL 框架所做的错误预测。评估了MESPE任务中的100个错误样本。结果显示,30%的错误实例源于框架生成了比基线标签更多的实体-情感对;25%是由于错误预测了实体的情感极性;另25%是处理多词实体时生成的词比标签多,导致不匹配;10%则因预测的实体-情感对数量较少。在大多数(55%)实例中,错误与缺少注释有关,例如在实例中标记了未标注的实体;45%则预测了不相关的实体-情感对。此外,包含多词实体时,因部分词的包含或排除导致错误;当句子包含不同情感时,也容易发生情感预测错误。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。