目录
4.1.1 Intentions in Social Media(社交媒体中的意图)
4.1.2 Knowledge Distillation(知识蒸馏)
4.2 DEFINITIONS AND DATASETS(定义和数据集)
4.3.2 Chain-of-Key Information Reasoning(关键信息链式推理)
4.3.3 Intention Distillation(意图蒸馏)
4.4 INTRINSIC EVALUATIONS(内在评估)
4.4.1 Two-stage Annotation(两阶段注释)
4.4.2 Distillation Evaluations(蒸馏评估)
4.4.3 Benckmark Other LLMs(基准测试其他大型语言模型)
4.5 EXTRINSIC EVALUATION(外在评估)
4.5.3 Results and Analysis(结果与分析)
0 论文及代码链接
代码链接(只有数据集):RingBDStack/Miko
发表会议:ACMMM
1 ACMMM会议简介
ACM International Conference on Multimedia (ACMMM) 是多媒体领域最具影响力的国际学术会议之一,由 美国计算机协会(ACM) 主办,主要关注多媒体技术及其在不同领域的创新应用。会议始于1993年,是多媒体技术领域历史最悠久的顶级会议之一。每年一届。ACMMM 是多媒体领域的顶级国际会议,被全球多个学术排名系统(如 CORE、CSDL 、CCF等)列为 A 类会议,拥有较高的学术地位。
2 第一遍——粗读部分章节
2.1 Title:
Miko: 基于大型语言模型的多模态意图知识蒸馏,用于社交媒体常识发现
2.2 Abstract:
社交媒体已成为一种无处不在的工具,用于与他人联系、获取新闻更新、表达观点和寻找娱乐。然而,理解社交媒体帖子背后的意图仍然具有挑战性,这主要是因为这些意图通常具有隐含性和常识性,同时需要跨模态理解文本和图像,以及处理噪声信息(例如标签、拼写错误和复杂的缩写)。为了解决这些挑战,我们提出了 Miko,一种多模态意图知识蒸馏框架(Multimodal Intention Knowledge Distillation Framework),它协同利用大型语言模型(LLM)和多模态大型语言模型(MLLM)来挖掘用户的意图。具体来说,我们使用 MLLM 来解析图像,用 LLM 提取文本中的关键信息,并最终再次指示 LLM 生成意图。通过将 Miko 应用于公开可用的社交媒体数据集,我们构建了一个意图知识库,该知识库包含 137,287 篇帖子中衍生的 1,372K 个意图。我们进行了两阶段标注以验证生成知识的质量,并对常用 LLM 在意图生成任务中的表现进行了基准测试。此外,我们还将 Miko 应用于讽刺检测数据集,并蒸馏出一个学生模型,以展示应用意图知识的下游效益。
2.3 Introduction:
社交媒体平台已成为我们日常生活中的基石,促使数据挖掘和自然语言处理(NLP)领域的多种任务得以开展,这些任务需要对用户行为进行深入理解 [3, 14, 22, 47]。然而,根据心理学理论 [4, 46],反映人类动机的意图相互关系对行为模式具有重要影响。意图是指计划、引导或朝向期望结果或目标的心理状态或过程 [5]。学术研究普遍认为,意图与某种形式的欲望交织在一起,因此意图行为本质上具有价值或是值得追求的 [63]。例如,在图 1 中,用户的意图与其社交媒体帖子内容密切相关。因此,在社交媒体中,准确理解用户帖子中的意图,能够以更具认知价值的视角观察这些帖子,从而推动下游任务的发展。
![]()
图1:用户在社交媒体帖子中的意图示例。用户1的意图是买一个性价比高的iPhone,而用户2的意图是对湖人年轻球员的表现感到失望。 近年来,意图发现算法的开发与改进呈现出显著增长,其应用覆盖多个领域,例如情感分析 [66]、在线购物 [62] 和社会公益 [1]。这些算法旨在通过深入洞察用户意图提升下游任务的性能。鉴于社交媒体的“暗面”特性,例如传播有害内容 [2, 12],对社交媒体内容进行分析以辨别其背后的动机和意图,已成为一个紧迫而重要的问题。
然而,在大规模社交媒体平台中识别用户意图并非易事。在这一过程中面临若干挑战。首先,文本中的意图通常是隐含的,而非显式表达的,这使得基于启发式或语义设计的提取方法无法从开放域数据中获取相关信息。此外,社交媒体数据本质上的多模态特性——包括文本、视觉和听觉元素的丰富组合——显著增加了复杂性。这种用户生成内容的多样性需要更加先进且细致的分析方法。最后,社交媒体帖子中普遍存在的“噪声”,如标签、拼写错误和复杂的缩写,对现有分析模型构成了重大解释性挑战。尽管研究工作不断推进,针对社交意图分析的方法论仍存在显著的空白,特别是在社交媒体背景下。因此,我们的研究主要聚焦于探索自动化技术,用于在开放域中识别多模态社交意图。
由于大型语言模型(LLMs)丰富的知识和强大的推理能力 [8, 37, 41, 42, 52, 53],越来越多的研究者展示了它们在多种任务中的卓越表现 [10, 19, 32],如产品推荐 [39]、情感分析 [54] 和心理健康分析 [61]。然而,在利用它们揭示社交媒体帖子意图时仍存在一些问题。首先,仅依赖社交媒体帖子的 LLM 生成内容可能不可靠,它们可能产生幻觉性输出,例如生成不可控、不准确的内容,以及误解无关的输入信息。此外,社交媒体帖子通常包含文本和视觉元素,这需要深入理解每种模态,并具备跨模态推理能力。例如,如图 1 所示,用户 2 的意图是表达对湖人队最近表现的不满和愤怒,这需要对帖子中的文本和图像进行联合理解。(What can I say? Mamba Out.)(在“Mamba Day”(科比·布莱恩特纪念日),年轻的湖人队连81分都没拿到。他们简直配得上“哭泣的乔丹表情”。)
为了解决上述问题,我们提出了 Miko,这是一种多模态意图知识蒸馏框架(Multimodal Intention Knowledge Distillation Framework),用于基于大规模社交媒体数据获取意图知识。具体来说,Miko 源自对可持续意图的广泛用户行为分析,例如各种发布活动。针对一个社交媒体帖子及其配套图像,我们使用多模态大型语言模型(MLLM)根据帖子文本内容生成输入图像的描述。随后,我们指示大型语言模型(LLM)从输入文本和图像描述中提取关键信息,以尽量减少文本中噪声信息的影响。在完成这些处理步骤后,我们最终指示一个强大的 LLM(如 ChatGPT [41])生成这些发布行为背后潜在的意图作为候选结果。我们将提示与 ATOMIC [48](一个流行的社交互动常识知识库)中的 9 个特定常识关系对齐,以确保意图在常识层面上的全面性。此外,还引入了一个开放提示关系以保持知识的多样性。
我们从内在和外在两个角度评估了 Miko 的表现。内在评估:我们整理了一系列公开可用的社交媒体数据集,并应用 Miko 获取这些数据集中社交媒体帖子的意图。随后,通过两阶段注释对生成内容的合理性和典型性进行评估。在注释中获得高评分的意图被用作基准数据,用以评估其他生成式大型语言模型(LLMs)的能力。实验结果表明:(1) Miko 能够生成高度合理且符合用户原始帖子典型意图的内容;(2) 大多数 LLM 难以直接生成高质量的意图,但对它们进行基于 Miko 生成意图的微调能够显著改善这一问题。外在评估:我们通过将生成的意图应用于讽刺检测任务来评估其下游效益,结果表明,将意图纳入当前方法能够实现最新的性能表现。总结来说,本研究的主要贡献如下:
- 提出了 Miko:一种创新的蒸馏框架,利用 LLM 和 MLLM 自动获取社交媒体帖子背后的意图。Miko 独特的设计在于通过两个大型生成模型同时理解社交媒体帖子中的文本和图像,从而填补了二者间的认知空白。
- 进行了广泛的人类注释:结果表明,Miko 生成的意图在合理性和典型性方面具有显著优势。进一步实验表明,大多数大型生成模型在直接生成意图时面临挑战,但基于 Miko 生成意图的微调能够显著提升性能。
- 验证了生成意图的下游任务效益:通过实验表明,Miko 生成的意图能够显著提升讽刺检测任务的性能,突出了蒸馏社交媒体意图在理解任务中的重要性。
论文结构:
- 第 2 节详细介绍了社交媒体意图研究及知识蒸馏技术的相关工作。
- 第 3 节定义了社交意图生成任务,并描述了本研究中使用的数据集。
- 第 4 节详细阐述了本研究提出的社交意图生成框架 Miko。
- 第 5 节对 Miko 框架生成的意图进行了人工注释,基准测试了 Miko 和其他 LLM 生成意图的质量,并展示了一个由 Miko 生成的案例。
- 第 6 节详细评估了生成意图对讽刺检测任务的影响。
- 第 7 节总结了研究结论。
2.3.1 问题1——理解正确
问题:
作者在引言中说了大量意图的重要性,那么意图是什么?
个人理解:
个人感觉“意图”就是“话里有话”的第二个“话”,我们在社交媒体上发布的信息是第一个“话”。
GPT的回答:
意图是人类行为背后的心理驱动力,指人们为实现某个目标或结果而形成的计划性和目标导向的心理状态。它通常隐含在行为中,体现了动机和价值取向的结合。在社交媒体中,意图通过文本、图像等形式表达,与用户行为紧密相关。准确理解意图不仅能揭示用户的动机,还能为情感分析、讽刺检测等任务提供认知支持,具有重要的研究和应用价值。
2.3.2 问题2——不懂
问题:
“我们将提示与 ATOMIC [48](一个流行的社交互动常识知识库)中的 9 个特定常识关系对齐,以确保意图在常识层面上的全面性。此外,还引入了一个开放提示关系以保持知识的多样性。”这里的“将提示与9 个特定常识关系对齐”以及“引入了一个开放提示关系以保持知识的多样性”是啥意思?
个人理解:
不懂
GPT的回答:
“将提示与9个特定常识关系对齐”:这是指在生成用户意图时,使用了ATOMIC知识库中定义的9种特定常识关系(如因果关系、动机关系等)作为生成提示的模板,确保生成的意图符合人类普遍的常识逻辑。ATOMIC知识库是一个专注于社交互动的常识知识库,它包含了大量关于人类行为及其后果、动机的常识性推理信息。通过将提示与这些关系对齐,可以让模型生成的意图更加贴近人类行为的逻辑性和常识性。例子(假设9种关系中的一种是“目的”):
- 用户发帖:“我终于跑完了马拉松!”
- 提示模板可能是:“用户发布这条动态的目的是什么?”
- 生成意图:“庆祝自己完成了挑战。”
“引入一个开放提示关系以保持知识的多样性”:开放提示关系指的是不依赖ATOMIC中固定的关系模板,而是通过更自由的方式,让模型根据输入内容生成多样化的意图,避免局限于预定义的模板。社交媒体内容丰富多样,可能超出ATOMIC中常识关系的范畴。通过引入开放提示关系,模型可以更灵活地生成意图,捕捉更加复杂或新颖的用户行为模式,丰富生成的意图知识库。例子:
- 用户发帖:“今天终于和高中同学见面了,好开心!”
- 开放提示可能是:“用户分享这条动态是出于什么意图?”
- 生成意图:“表达对重聚的喜悦,记录美好时刻。”
2.3.3 问题3——不懂
问题:
“随后,通过两阶段注释对生成内容的合理性和典型性进行评估。”什么是两阶段注释?
个人理解:
不懂
GPT的回答:
“两阶段注释”指的是一种分层式的人工评估过程,用于逐步对生成内容(如模型生成的意图)进行质量验证。这种方法通过多个阶段的注释,确保生成内容的合理性和典型性更加准确和可靠。
-
第一阶段:初步筛选
- 目标:对模型生成的内容进行初步判断,筛选出表面上合理且与输入内容相关的结果。
- 方法:
- 注释者根据简单的标准(如内容是否逻辑合理、是否相关)给出基本评价。
- 去除明显不相关或不合理的内容,保留符合基本要求的候选项。
- 结果:得到一组初步通过的候选内容。
-
第二阶段:深度评估
- 目标:对通过初筛的内容进行更深入的质量评估,确保其典型性和更高的合理性。
- 方法:
- 注释者根据更具体的标准(如内容是否符合常识、是否充分表达意图)进行更详细的分析和打分。
- 可以引入多名注释者,采用多数投票或一致性标准来确认最终结果。
- 结果:得到经过深度评估的高质量内容集合。
2.3.4 问题4——理解正确
问题:
“大多数大型生成模型在直接生成意图时面临挑战,但基于 Miko 生成意图的微调能够显著提升性能。”如何用Miko对LLM进行生成意图的微调?
个人理解:
可以把Miko视为一个高质量生成意图数据集(输入为:图片-文本等多模态信息;输出为:意图),然后用这个数据集对其他模型进行微调。
GPT的回答:
即将Miko框架生成的高质量意图作为训练数据,来优化和调整LLM,使其能够更好地生成符合社交媒体场景的用户意图。
{
"input": "文本:'湖人队表现令人失望。' 图像描述:'一名球迷沮丧地看着球队标志。'",
"output": "意图:'表达对湖人队表现的不满和愤怒。'"
}
2.4 各个标题:
0 Abstract(摘要)
1 Introduction(引言)
2 Related Works(相关工作)
2.1 Intentions in Social Media(社交媒体中的意图)
2.2 Knowledge Distillation(知识蒸馏)
3 DEFINITIONS AND DATASETS(定义和数据集)
3.1 Task Definitions(任务定义)
3.2 Datasets(数据集)
4 METHOD(方法)
4.1 Image Captioning(图像描述)
4.2 Chain-of-Key Information Reasoning(关键信息链式推理)
4.3 Intention Distillation(意图蒸馏)
5 INTRINSIC EVALUATIONS(内在评估)
5.1 Two-stage Annotation(两阶段注释)
5.2 Distillation Evaluations(蒸馏评估)
5.3 Benckmark Other LLMs(基准测试其他大型语言模型)
6 EXTRINSIC EVALUATION(外在评估)
6.1 Setup(设置)
6.2 Baselines(基线)
6.3 Results and Analysis(结果与分析)
6.4 Ablation Study(消融实验)
7 Conclusion(结论)
8 References(参考文献)
2.5 数学内容:
N/A
2.6 Conclusion:
在本文中,我们介绍了Miko,这一创新框架旨在从多模态社交媒体帖子中获取社交意图知识。我们的方法结合了一种分层方法来提取重要的社交信息和意图。这个过程利用大型语言模型和精心设计的提示,有效地捕捉用户在社交帖子中的发布意图。此外,我们对选定断言的典型分数进行了精心注释,并通过人工知识丰富它们,建立了一个可靠的基准。我们进行了全面的评估,以验证我们框架提取的精炼意图知识的有效性和实用性。在未来,我们计划通过将Miko适应于不同领域、行为类型、语言和时间背景,来扩大其应用范围。预计这一扩展将显著增强各种社交媒体应用的能力。
2.7 References:
有不少关于社交媒体多模态的参考文献,也有一些经典的知识蒸馏参考文献。
3 第一遍阅读结束要回答的5个问题
1、类别:这篇论文属于哪个类别?实验数据类、还是提出一个新的研究模型、还是其他类别?
这篇论文提出了一个新的研究框架,名为Miko,是一个用于从多模态社交媒体帖子中获取社交意图知识的框架。它结合了大语言模型和精心设计的提示,创新性地提出了一种分层方法来提取社交信息和意图。
2、内容:这篇论文和哪些已经读过的论文相关?比如是在哪些文章的基础上做的工作,还是自成一脉全新的工作?
这篇论文与现有的社交媒体分析、意图发现、知识蒸馏等领域的研究相关。它基于大语言模型(LLMs)和多模态大语言模型(MLLMs)来进行意图发现,借鉴了ATOMIC等常识知识库中的常识关系。它的工作建立在已有的意图发现算法和社交媒体数据分析研究的基础上,但通过创新的方法和模型进一步推动了这一领域的研究。
3、正确性:这篇论文的前提假设合理吗?
这篇论文的前提假设是合理的。社交媒体数据本身具有多模态特性,包含文本、图像等信息,而这些信息对用户意图的理解至关重要。作者提出的基于LLM和MLLM的分层方法来提取社交意图,符合目前深度学习和自然语言处理领域的主流方法,且考虑到噪声信息的处理,具有一定的现实意义。
4、贡献:这篇论文的主要贡献是什么?
这篇论文的主要贡献是提出了Miko框架,创新性地将大语言模型和多模态语言模型结合,通过分层方法有效地提取社交媒体帖子中的用户意图。该框架不仅提出了有效的意图生成方法,还通过广泛的评估验证了其有效性。论文的另一个贡献是通过注释生成意图的质量,并展示了意图对下游任务(如讽刺检测)的益处。
5、清晰度:这篇论文写得好吗,你如何看待这篇论文?
从目前这几个模块来看写的比较清晰,但论文缺乏对一些专用术语的解释。这篇论文主要创新之处就是构造出了一种可以提取高质量意图数据集的方法,然后将该数据集用于LLM蒸馏(感觉更应该叫做微调)。
4 第二遍——细读全文
4.1 Related Works(相关工作)
4.1.1 Intentions in Social Media(社交媒体中的意图)
意图与心理状态(如信念和欲望)密切相关[4, 46]。一般认为,意图涉及某种形式的欲望:意图的行为在某种意义上被认为是好的或值得追求的[63]。这一点使得意图能够激发当前的人类行为,其中用户的发帖行为是由意图驱动的典型行为。在社交媒体平台上,正向社交帖子(如慈善、互助等)有助于促进社会发展与进步,而负向社交帖子(如嘲笑、侮辱、对立言论等)可能会伤害人们的心灵,阻碍社会和谐。最近,社交媒体在日常生活中的广泛应用引起了学者们的关注,他们利用意图知识来解决情感分析[23, 66]、仇恨言论检测[58]、推荐系统[16, 21, 31]等任务。这旨在通过利用对用户意图的洞察来提升下游任务的表现。因此,分析社交媒体内容,揭示其中潜在的动机和意图,成为一个迫切且有价值的问题。
在情感分析任务中,理解用户内容的想法至关重要,有助于更深入地了解他们的情感状态和潜在需求。如周等人[66]的研究所阐述的那样,这对于准确分类用户情感是基础。通过仔细提取和分析用户生成内容中的上下文线索和发帖意图,情感分析工具显著提高了其将情感分类为积极、消极或中立等明确类别的能力。在推荐系统中,现有的研究通常使用用户的复购意图来分析客户需求,从而实现更准确的推荐。如[26]所说,消费者的购买意图是消费者继续参与零售商或供应商商业活动的倾向。Hellier等人[24]将其定义为个体在考虑自身情况后,决定继续从同一公司购买特定产品或服务的决定。Zeithaml等人[64]指出,复购意图有两种表现形式:一种是消费者有购买某个特定产品或服务的意图;另一种是消费者积极传播正面的口碑,或者主动推荐该产品或服务给他人。
然而,在广泛的开放域网络中识别用户意图并分析所传达的信息面临巨大挑战。这些挑战源于大量数据在众多网站上产生。传统算法模型难以准确定位关键信息并提取用户的准确意图。此难题来源于用户生成内容的复杂性和多样性,需要更先进和细致的分析方法。我们首次提出了开放域社交意图生成框架,旨在从多模态社交帖子中提取准确且合理的社交意图。
4.1.2 Knowledge Distillation(知识蒸馏)
知识蒸馏[27]是一种策略,其中一个预训练的模型(称为教师模型)辅助训练第二个模型(称为学生模型)。随着大规模语言模型(LLMs)的发展,越来越多的研究者尝试将领域特定的知识从LLMs指导并提炼到小型模型中,从而增强小型模型的泛化能力[9, 20, 35, 50, 55, 56]。Liu等人[36]尝试将时间序列信息从LLMs蒸馏到小型模型中,其中学生网络被训练以模仿在大规模数据集上预训练的基于LLM的教师网络的特征。Sun等人[49]设计了一种有效且高效的预训练推荐模型(PRM)蒸馏框架,用于多领域推荐,以加速PRM的实际应用。
然而,上述研究集中于从大规模语言模型(LLMs)中提取直接信息,却忽视了分层分析以识别相关信息,并且主要应用于特定领域,未分析社交用户的动机或意图。我们的框架Miko可以看作是首次尝试利用LLMs进行社交意图的蒸馏和分析。
Miko框架首次尝试利用大规模语言模型,不仅提取社交媒体内容中的显性信息,还深入分析用户发布内容的动机和意图,弥补了传统方法忽略分层分析且局限于特定领域的不足。
4.2 DEFINITIONS AND DATASETS(定义和数据集)
4.2.1 Task Definitions(任务定义)
在分析一篇帖子(定义为t)及其附带图片(定义为m)的背景下,意图知识蒸馏任务的目标是从帖子和图片中提取一组意图,表示为 k。与大多数当前的意图分析研究一致,这一任务被视为一个开放领域生成问题。设 t = ( t1, t2,..., tn) 表示帖子中的一系列输入词,k = ( k1, k2,..., kl) 表示从帖子文本和图片的各个方面推导出的意图集合,其中 n 和 l 分别表示帖子的长度和最相关的意图的数量。
4.2.2 Datasets(数据集)
在意图生成任务中,我们利用了四个著名的公开数据集,以应对社交媒体帖子多样性带来的挑战,从而提供更强大和全面的社交媒体互动分析。这些数据集包括Twitter 2015[65]、Twitter-2017[40]、Twitter100k[28]和TwitterSarcasm[6]。这些数据集分别包含Twitter 2015的8,357个句子、Twitter 2017的4,819个句子、Twitter100k的100,000个句子,以及Twitter Sarcasm的24,635个句子。值得注意的是,由于Twitter-2017和Twitter Sarcasm数据集中某些样本缺少图像模态,我们排除了这些样本,整理出了一个清洁版的数据集,详细信息见表1。
4.3 METHOD(方法)
在本节中,我们介绍了Miko,一个多模态意图知识蒸馏框架,如图2所示。Miko可以总结为三个主要步骤。
1)给定社交媒体帖子中的图像和文本对,我们首先指示一个多语言大模型(MLLM)生成社交媒体帖子中图像的自然语言描述,以桥接视觉和文本模态(4.3.1)。
2)然后,同时指示一个大语言模型(LLM)分析每个帖子中的文本,通过提取五个预定义的关键维度来提取关键信息(4.3.2)。
3)利用提取的中间步骤信息,我们最后再次指示LLM生成用户帖子背后的潜在意图,并构建多角度的意图档案(4.3.3)。
![]()
图2:我们工作的整体架构,包括三个核心部分:多信息推理、意图蒸馏和多视角意图有效性评估。我们利用LLava和ChatGPT模型,采用一种新颖的分层提示引导方法,从用户发布的内容中提取图像描述(第4.3.1节)、关键信息(第4.3.2节)和意图(第4.3.3节)。随后,我们基于合理性和可信性对提取的意图进行标注,创建基准数据集(第4.4.1节),并评估各种LLM的性能(第4.4.3节)以及结合意图信息在讽刺检测任务中的表现(第4.4.4节)。
4.3.1 Image Captioning(图像描述)
当用户发布帖子时,附带的图像往往包含他们潜在的发布动机,主要体现在两个方面。
首先,当图像无法直接以文本形式表达时,如讽刺性言论,通常是因为用户想要表达的内容可能违反平台的言论限制。在这种情况下,图像成为一种替代的表达方式,使用户能够绕过文本的限制,传达他们的真实意图。
其次,用户可能会使用图像进一步解释或强化文本信息,使原始帖子内容更加丰富和清晰。这些图像不仅补充了文本,而且在许多情况下,它们帮助公众更深刻、准确地理解帖子背后的意图和情感。为此,我们利用先进的多模态大语言模型LLava[37]进行图像描述。借助特殊设计的提示,LLava被用来从原始图像-文本对中推导出图像信息的详细描述。这种方法确保了社交媒体帖子的更丰富和更细致的解读。
我们使用的结构化提示如下:
基于以下文本“<帖子文本信息>”,请详细描述当前图像。
请注意,对于单一文本信息的输入,我们不执行此处理步骤。
4.3.2 Chain-of-Key Information Reasoning(关键信息链式推理)
社交媒体帖子经常包含噪声元素,如标签、拼写错误和复杂的缩写,这些都可能影响意图分析的表现。此外,由于大型语言模型(LLM)在准确描述和提取原始帖子的有用信息时面临困难,这可能导致幻觉现象,因此在获得图像描述后,有必要进一步从原始帖子和相应的图像描述中提取更关键的信息,以消除噪声信息的影响。我们设计了一种关键信息提示策略,引导ChatGPT[41]从原始帖子中不同维度提取概念、动作、对象、情感和关键词。我们使用的结构化提示如下:
请根据以下信息提取概念、动作、对象、情感和三到五个关键词。
注意:删除人物名称及其他信息,仅保留关键信息。信息为:<文本信息>/<图像描述>。
4.3.3 Intention Distillation(意图蒸馏)
直接使用大型语言模型(LLMs)提取用户的发布意图可能会遇到一些挑战,包括理解肤浅和准确性差。为了缓解这些问题并提高模型准确全面地理解社交媒体帖子背后意图的能力,我们开发了一种意图蒸馏策略,该策略结合了原始帖子信息、图像描述信息和关键信息,以生成更加准确和全面的开放领域和标准化描述的原始发布意图。
此外,用户的发布意图是开放的且多样化的。因此,为了从多个角度全面、准确地分析用户的发布意图,受到ATOMIC [48]的启发,我们将社交意图分为两种不同的类型:一种表示发布后的效果(“effect”),另一种反映用户社交媒体帖子对观众的预期影响或作用(“agent”)。使用的结构化提示如图5所示,更多详细信息请参见附录A(蒸馏提示)。
在获得第4.1节的图像描述和第4.2节的关键信息后,我们进一步对生成的意图进行了精细化和标准化分类,如图5所示。我们参考了ATOMIC [48]中定义的9种关系类型,包括xNeed(用户的需求)、xIntent(用户的意图)、xAttr(用户的属性)、xEffect(用户行为的效果)、xReact(用户的反应)、xWant(用户的欲望)、oEffect(对他人的影响)、oReact(他人的反应)以及oWant(他人的欲望),并新增了一个开放意图类别Open。“x”表示用户在发布内容后的想法和行为,而“o”表示该内容对他人的影响。Open作为开放领域的意图类别,用于描述用户发布特定内容的动机和目的。通过采用这种意图分类方法,我们能够全面分析用户的发布意图,精准把握用户发布内容背后的动机,从而加深对用户行为的理解。
这里的结构化提示提到“生成10个可能的意图”,而且已经规定好了回答前缀,因此就是从“ATOMIC中定义的9种关系类型+1种开放意图类型”出发的。
4.4 INTRINSIC EVALUATIONS(内在评估)
在这项研究中,我们对生成的意图进行了内在评估。为了评估意图生成的质量,我们随机选择了1,000个帖子,并在第4.4.1节中进行了人工标注,最终提取了与人类逻辑一致的准确且全面的意图,并将其添加到基准中。此外,我们对Miko框架生成的意图进行了全面评估,涵盖了知识质量案例研究(第4.4.3节)。随后,基于第4.3.3节中获得的意图,我们训练了一个本地LLM模型(第4.4.2节),并使用基准来评估其他LLM在生成意图方面的表现,以及训练模型在意图生成方面的表现(第4.4.4节)。
4.4.1 Two-stage Annotation(两阶段注释)
由于生成的意图可能存在不准确或不合理的情况,参考folkscope的方法[62],我们采用人工标注来获得高质量的断言,然后判断意图生成的合理性,将其作为评估使用其他模型生成意图能力的基准。我们使用Label Studio[51]对意图数据进行标注。在这个阶段,标注员将获得生成的候选意图和原始文本-图像对。为了确保更可靠且基于共识的评估,我们的初始策略是评估生成意图的典型性。我们从数据集中随机选择了1,000个Twitter帖子及其相应的意图数据进行人工评估。如第4.3.3节所述,每个帖子包含10种不同类型的意图数据。我们单独评估每个帖子的意图信息,并根据以下标准打分:“1分表示典型性高”,“0分表示典型性低”,“-1分表示不合乎逻辑”。
在评估生成的意图的典型性后,至关重要的是评估每个标注的帖子是否需要添加到基准中。这一步骤确保了标注不仅合理,而且客观。超越对意图方面基本典型性判断的基础,我们的第二步引入了更细致和精准的典型性衡量标准,关注信息量和全面性。在这一阶段,我们对前一步骤中标记的数据结果进行统计分析,并计算每个帖子的不同生成意图的总得分。对于总得分超过5分的帖子,我们进一步手动进行区分。最终,我们保留那些符合人类逻辑且具备全面意图信息的帖子,将其添加到基准中。这为评估其他知识蒸馏和意图生成方法提供了基础。不同角度(共10种,ATOMIC中定义的9种关系类型+1种开放意图类型)的发布意图数量见表2。
4.4.2 Distillation Evaluations(蒸馏评估)
Step1 知识质量。知识质量评估的主要目标是准确识别和认可高质量的知识。在本研究中,我们的重点是评估生成的意图是否确实具备优良的质量。为此,我们对第4.4.1节中标注的数据进行了人工评估,如图4所示。显然,大多数由Miko框架生成的实例与人类认知具有“高度相关性”。这表明,Miko生成的意图信息在很大程度上与人类的认知和思维过程相一致,其中包括首先从原始数据中识别关键信息,然后在这些关键信息的引导下,对原始内容进行更深入的分析。
然而,值得注意的是,尽管大多数意图质量很高,某些类别的意图(如“xReact”)与人类理解存在一定偏差。这表明,即使是大语言模型(LLMs)也难以完全理解用户的感受和认知,这为未来的研究提供了一个重要方向。
Step2 案例研究。我们在图3中展示了一个原始的文本-图像对及其相应的知识和图像描述(第4.3.1节)、关键信息(第4.3.2节)以及生成意图的不同方面(第4.3.3节)。我们使用合理性和典型性来衡量生成信息的质量,可以观察到大多数生成的意图既合理又全面,符合人类直观理解。例如,“发布这条推文后,用户旨在告知他们的关注者迪拜机场的悲剧事件”以及“看到这条推文后,其他人将被更新迪拜机场的情况,并了解任何可能的延误或取消”就是这种情况的例子。因此,一些开放式的意图也非常好,只有极少数例子生成的意图质量较低。
图3:示例展示了生成的图像描述、关键信息和意图。“P”代表合理性,“T”代表典型性。高质量生成的结果(绿色高亮)和低质量生成的结果(红色高亮)被特别标注。此外,“H”和“L”分别表示合理性和典型性得分的高低。
4.4.3 Benckmark Other LLMs(基准测试其他大型语言模型)
我们感兴趣的是,是否使用不同类型的语言模型而不使用Miko框架会对生成的意图产生显著影响。因此,我们通过实证分析使用11个大语言模型(LLama2-7B[53],LLama2-13B[53],Mistral-7B-Instruct-v0.1[29],Mistral-7B-Instruct-v0.2[29],Falcon-7B[44],Flan-T5-xxl-11B[11],GLM3[15],GLM4[15],LLava-v1.5-13B[37],LLava-v1.6-vicuna-7B[37])的生成可信度比率。此外,为了提高使用本地部署模型从社交帖子中生成意图的效率,我们选择了LLama2-7B模型,因为其在多项开源语言指令微调工作中已被证明有效[17, 45]。LLama2-7B模型的选择是基于其计算效率与语言能力的平衡,使其成为资源受限的本地部署场景中的务实选择。
在此阶段,我们利用第4.3.3节中识别的用户意图 k 来构建指令对,进一步对LLM进行微调。具体而言,对于每个帖子 t 和相关图像 m,我们利用LLM生成图像描述
和关键信息
,其中 g(⋅) 表示LLM生成的文本。随后,我们为每个帖子制定训练指令
,其中 N 表示帖子的总意图数,
表示由 t,
,
, 和特定意图生成提示整合后的结果。这些意图按顺序排列,所有答案视为来自助手的回应。
![]()
表3:生成意图的10个不同方面的平均BERTscore(以百分比报告)。请注意,这里显示的结果已经进行了调整,以排除诸如“发布此Tweet后,用户想要”之类的前缀。“LoRA微调”表示通过指令微调使用意图训练的模型。 如表3所示,可以观察到,多模态大语言模型的表现优于基于文本的LLMs,如LLama2-7B、GLM3和GLM4。这表明,用户帖子中包含的图像信息可能揭示潜在的目的和心理活动,从而使模型能够更准确地分析和识别用户的发帖意图。此外,使用蒸馏的意图知识训练LLama2-7B模型显著增强了其在意图分析方面的能力,强调了我们提取的意图知识在指导模型准确提取意图知识方面的有效性和可靠性。
此外,还做了一个有趣的观察:GLM4的表现逊色于GLM3。这种差异可能是因为GLM4训练使用了大量中文语料库,这可能导致它在解释英文社交媒体帖子时的能力较GLM3弱。
此外,我们还评估了大语言模型训练后的泛化能力,LLama2-7B LoRA微调模型在MMLU [25] 评估中的详细结果见表4。我们的发现表明,在意图微调之后,模型的性能不仅保持稳定,而且在STEM(科学、技术、工程和数学)、社会科学和其他领域超越了基准LLama2-7B模型。这表明我们的训练方法既没有妥协模型的推理能力,也没有影响其泛化能力。
4.5 EXTRINSIC EVALUATION(外在评估)
为了进一步验证生成的意图的有效性及其在提高下游任务准确性方面的能力,我们将生成的意图添加到讽刺检测任务中并进行了评估。对于讽刺检测数据中的原始图像-文本数据,我们首先应用第4.3.1节中的提示设计,以获取当前输入图像的描述,并提取图像-文本对中包含的关键信息(第4.3.2节)。随后,我们使用原始文本、图像描述和关键信息作为输入,采用第4.3.3节设计的生成意图来提取用户的发帖意图。这些意图随后与原始帖子和图像描述一同输入,用于训练模型并评估测试数据。
在这一场景中,LLMs可用于发现和提炼原始帖子中的隐藏意图,这些意图与讽刺检测任务中用户的发帖目的密切相关。这种方法有效地提高了任务的准确性,从而证明了社交意图的有效性。
4.5.1 Setup(设置)
我们在Twitter讽刺数据集上进行了实验,该数据集由[6]收集。该数据集包含表达讽刺的英文推文,标记为“1”,以及表达非讽刺的推文,标记为“0”。为了公平比较,我们仔细清理了数据集,删除了缺少图像模态数据的实例。然后,我们在清理后的数据集上复现了Miko框架,以获取源数据的图像描述和意图。
在知识提取方面,我们使用了LLava[37]来提取图像描述,并利用ChatGPT[41]提取意图。为了确定Miko启发的方法是否真正提高了讽刺检测的准确性,我们采用了预训练的BERT-base-uncased模型[13]作为文本主干网络。此设置用于获取文本和知识的初始嵌入。然后,我们通过附加图像描述和提取的意图来增强原始文本。这种方法使我们能够评估Miko提取的社交意图知识是否为讽刺检测任务提供了额外有价值的见解。
为啥突然使用BERT了呢?我们继续往下看。
4.5.2 Baselines(基线)
在我们的研究中,我们使用文本和多模态方法作为基准框架,评估生成意图的影响。对于基于文本的方法,我们整合了TextCNN[30]、Bi-LSTM[18]和SMSD[59],后者采用自匹配网络和低秩双线性池化进行讽刺检测。此外,我们还采用了BERT[13],这是讽刺检测中的一个强大基准。
在多模态领域,我们的基准包括HFM[7]、D&R Net[60]、Att-BERT[43]、InCrossMGs[33]以及一个修改版的CMGCN[34],该版本排除了外部知识。HKE[38]代表一个分层框架,通过多头交叉注意力机制利用原子级别的相似性,通过图神经网络利用组合级别的相似性,而展示低相似度的帖子被识别为讽刺性帖子。
4.5.3 Results and Analysis(结果与分析)
在我们的初步评估中,我们评估了我们提出的框架与已建立基准模型的效能。相应的准确率(Acc)、精确率(P)、召回率(R)和F1分数(F1)如表5所示。结果表明,在意图数据的帮助下,BERT模型达到了最先进的性能。我们还得出以下发现:
![]()
表5:讽刺检测的对比结果。†表示ResNet骨干网,‡表示ViT骨干网。其中,“INTE”表示Miko衍生的社交意图,“IMGDES”表示通过LLava生成的图像描述。“Text”是指只使用原始帖子。
基于文本的模型在表现上优于基于图像的方法,这突显了文本比图像更容易理解且信息更为密集。此发现验证了我们通过使用MLLM提取图像描述来增强文本信息的方法的有效性。
相反,多模态方法优于单模态方法,这强调了利用多模态信息的优势。通过多模态信息的融合和对齐,模型的检测能力得到了显著增强。
如表5所示,“BERT-(Text+INTE+IMGDES)”模型表现最佳,这验证了结合社交媒体意图的有效性。社交意图为用户的心理状态和即时发布动机提供了更全面的视角。因此,通过这些洞察信息丰富模型,能显著增强其识别讽刺语句的能力。
感觉用了Miko衍生的社交意图之后性能有提升,但提升的很有限。
4.5.4 Ablation Study(消融实验)
在这一阶段,我们进行了消融实验,以评估图像描述和意图信息对讽刺检测任务的影响。实验结果如表5所示,得出了一些有洞察力的观察结论。
首先,图像描述和意图对讽刺检测有显著贡献。BERT-(Text+IMGDES)相较于未包含图像描述的BERT,性能得到了提升,证明了这一点。一个值得注意的发现是,BERT-(Text+INIT)优于BERT-(Text+IMGDES),因为意图是在原始文本、图像描述和关键信息的基础上进一步精炼的,这些信息更符合人类的信息活动,更有助于讽刺检测任务。
此外,图像描述和意图的整合取得了最有效的结果,超越了当前多模态讽刺检测的最先进水平。这强调了从大规模模型中提取意图信息的有效性,以准确把握用户的潜在思想。这意味着讽刺检测数据的识别效果取决于准确理解用户的思想和动机的能力。
5 第二遍阅读总结
整体读下来,这篇论文的行文逻辑比较清晰也比较容易理解。大致意思就是:
首先我先获取到原始数据集{文本-图片}对,然后按照结构化提示模板让大语言模型ChatGPT生成10种意图(ATOMIC中定义的9种关系类型+1种开放意图类型),然后再与原始文本、图片描述文本做拼接,然后再人工筛选,保留出高质量的数据集进而形成新的高质量数据集,然后用这个数据集对稍微小一些的大模型做蒸馏(为啥说是蒸馏而不是微调呢?因为这个数据集里的部分信息来自于LLM或者MLLM的推理结果,所以对这个稍微小一点的大模型进行优化就是相当于让小模型对齐、学习大模型的一些能力,更符合蒸馏的定义),最后发现蒸馏得到的模型效果比较不错,也通过消融实验和对比实验验证了意图的重要性。
emm,总觉得没啥创新点,或许最大的创新点就是从“构建高质量意图数据集进而增强模型性能”吧,但其实你都构建出这个特定任务的高质量数据集了,那对应的性能不自然而然会得到提升么?哈哈,看来想发论文最重要的是要学会“讲故事”呀!!!
6 第三遍——读代码
由于作者没有公布完整的代码只给了数据集,这里简单介绍一下:
该数据集包含两个文件和一个文件夹:train.json、test.json 和 image(数据集链接)。test.json 文件中不包含意图信息。参与者需要根据提供的文本和图像数据,为测试实例生成意图信息。
train.json 和 test.json 中的每个实例均表示为一个字典,详细描述了某条推文的属性。字典包括以下字段及其对应含义:
Field | Meaning |
---|---|
intention_labels | 该字段包含一个标签列表。如果 intention_labels[3] 等于 1,则表示 意图 3(Intention 3) 是该推文意图的真实标签(ground truth)。 |
image | 该字段表示推文图像的文件名。相应地,可以根据提供的文件名在 image 文件夹中找到该图像文件。 |
text | 该字段包含推文的文本内容。 |
intentions | 这是一个包含从意图1到意图10的条目的字典。 |
下面给出几个小小示例:
train:
{
"intention_labels": [
1,
1,
1,
0,
0,
1,
1,
0,
0,
1
],
"image": "129.jpg",
"text": "Lil Weezyana Fest 2!! Bringin my bro @hairweavekiller with me ColleGrove Edition Let's Go!",
"intentions": {
"Intention 1": "After posting this Tweet, the user wants to inform followers about Lil Weezyana Fest 2 and generate excitement for the event.",
"Intention 2": "After viewing this Tweet, others will be interested in attending Lil Weezyana Fest 2 and possibly bring friends.",
"Intention 3": "The user posts this Tweet because the user is a fan of Lil Wayne and wants to share the excitement of seeing him perform live.",
"Intention 4": "The user posts this Tweet because the user intended to promote the festival and attract more attendees.",
"Intention 5": "After posting this Tweet, the user feels excited and eager to attend the festival.",
"Intention 6": "After viewing this Tweet, others feel energized and hyped for the festival.",
"Intention 7": "After viewing this Tweet, others want to attend Lil Weezyana Fest 2 and experience the energetic atmosphere.",
"Intention 8": "After posting this Tweet, the user will check for responses and engage with followers who express interest in attending.",
"Intention 9": "Before posting this Tweet, the user needs to have confirmed plans to attend the festival and bring a friend.",
"Intention 10": "The user post this tweet because they want to showcase their love and support for Lil Wayne and his music."
}
},
test:
{
"intention_labels": [
1,
1,
1,
1,
0,
1,
1,
1,
0,
1
],
"image": "3104.jpg",
"text": "summer session w8 | WeeklyWorkouts"
},
7 总结
由于没有代码,不再赘述,和“5 第二遍阅读总结”保持一致。
8 参考文献
N/A