小样本学习+多模态
小样本学习和多模态学习的结合是一种前沿的研究方向,主要作用是在利用少量的训练数据来学习多个模态(如文本、图像、音频、视频等)之间的关系或进行跨模态的任务。通过这种结合,模型能够在极少的样本情况下,从不同类型的数据中提取有效信息,并进行推理和预测。
他主要面对的挑战有:
数据稀缺:小样本学习意味着模型要从非常少的示例中进行学习,这对模型的泛化能力有极高的要求。在多模态情境下,不同模态之间的数据一般都有着不同的结构和特征,使得从少量数据中捕捉这些模态之间的关联更加困难。
跨模态特征对齐:如何在不同模态之间对齐特征(如何将文本、图像或音频中的信息转化为模型可理解的、共享的表示空间)
模态之间的相互依赖:不同模态的数据通常有高度的相互依赖性
应用场景:
-
图像-文本生成:通过少量的图像和文本对,模型可以学习生成描述图像的自然语言文本或从文本生成图像。这对于自动内容生成或图片自动标注非常有用。
-
视频理解与摘要:通过小样本的视频和字幕对,模型可以学习如何对视频中的事件进行总结或从视频生成字幕。对于视频处理、安防监控等领域具有重要应用。
-
跨模态问答:模型能够在给定少量图像或文本信息的情况下回答问题。例如,在视觉问答任务中,模型可以根据给定的图像和少量问题示例来进行回答。
-
医疗诊断:在医学影像和文本报告的多模态数据中,通过少量标注的病例数据,模型可以学习到影像与诊断文本之间的关联,从而帮助医生更好地进行诊断。
1、Active Exploration of Multimodal Complementarity for Few-Shot Action Recognition
Active Multimodal Few-shot Action Recognition (AMFAR)旨在提高小样本动作识别的性能.
基于元学习范式,包含元训练和元测试两个阶段。
-
在元训练阶段,首先使用特定于模态的背骨网络提取查询样本和支持样本的动作原型的多模态表示。
-
利用查询到原型的距离计算模态特定的后验分布,并采用Active Sample Selection (ASS) 模块,根据模态的可靠性将查询样本分组。
-
设计了Active Mutual Distillation (AMD) 机制,通过双向知识引导流在模态间传输查询到原型的关系知识,从而提高不可靠模态的表示学习能力。
-
在元测试阶段,采用Adaptive Multimodal Inference (AMI) 进行小样本推理,通过自适应地融合不同模态的后验分布,更多地关注可靠的模态。
创新点:
· 多模态互补性的主动探索:首次将主动学习的思想应用于探索小样本学习中的多模态互补性,通过主动寻找每个查询样本的更可靠模态来改进小样本推理过程。
· 基于任务的模态选择:根据任务特定的上下文信息,动态地选择在当前任务中更可靠的模态,而不是预设某一模态始终作为教师或学生。
· 双向知识蒸馏:提出了一种双向知识蒸馏策略,通过从可靠模态到不可靠模态的双向知识引导,提高不可靠模态的判别能力。
· 自适应多模态推理:在元测试阶段,根据模态的可靠性自适应地融合不同模态的结果,而不是简单地平均或串联不同模态的预测。
· 实验验证:在四个公共基准数据集上进行了广泛的实验,证明了所提出方法相较于现有的单模态和多模态方法取得了显著的性能提升。
· 模块化设计:通过将问题分解为不同的模块(ASS、AMD、AMI),使得框架具有更好的灵活性和可扩展性,便于针对不同的小样本动作识别任务进行调整和优化。
AMFAR框架
特定于模态的背骨网络
“特定于模态的背骨网络”(modality-specific backbone network)在深度学习中是指专门为处理特定模态(如图像、文本、语音等)数据而设计的神经网络架构。每种模态的数据有其独特的特征,特定于模态的背骨网络通过学习这些特征来更好地处理和理解该模态的数据。
例如:
- 图像模态:通常使用卷积神经网络(CNN)作为背骨,因为CNN擅长处理二维图像数据,能够很好地捕捉图像中的空间结构和局部特征。
- 文本模态:常用循环神经网络(RNN)、长短期记忆网络(LSTM)或转换器模型(Transformer)作为背骨,这些模型擅长处理序列数据,尤其是在自然语言处理任务中。
- 语音模态:一般使用CNN结合RNN或Transformer,用于提取语音信号中的时间和频率特征。
特定于模态的背骨网络可以与多模态学习结合使用。在多模态任务中,不同模态的特定背骨网络分别处理各自的输入模态,提取相关特征,之后再通过融合策略将这些模态的特征组合在一起,以实现更复杂的任务目标。
Active Sample Selection (ASS) 模块
Active Sample Selection (ASS) 模块是一种在深度学习和机器学习任务中用于主动学习(Active Learning)的方法,旨在从大量的未标注数据中挑选出最有价值的样本进行标注,从而提高模型的训练效率和性能。
主要功能
ASS 模块的核心目标是在有限的标注资源下,以最少的标注样本获得尽可能高的模型性能。
通常,它通过以下几种策略来选择样本:
-
不确定性采样(Uncertainty Sampling):选择模型最不确定的样本进行标注,例如那些模型在预测时最接近决策边界的样本。这些样本往往能为模型提供最大的信息增益。
-
多样性采样(Diversity Sampling):选择具有多样性、与已有样本差异较大的样本进行标注,避免模型只学到局部模式,增强泛化能力。
-
基于代表性的采样(Representative Sampling):挑选在整个数据集中最具代表性的样本,使模型能够学习到数据的全局特征。
-
基于不确定性与多样性结合的策略:将不确定性采样与多样性采样结合,选择既能提升模型性能又能增强模型泛化能力的样本。
应用场景
ASS 模块广泛应用于以下领域:
- 计算机视觉:用于减少标注图像的成本,尤其在像医学影像分析或自动驾驶等需要大量人工标注的场景中。
- 自然语言处理:减少对大规模标注文本数据的需求,通过选择最有价值的文本样本进行标注。
- 语音识别:减少大量语音数据的标注工作,提升模型的学习效率。
通过ASS模块,可以更有效地利用标注数据,提高模型在实际应用中的表现,同时减少标注成本。
2、Active Exploration of Multimodal Complementarity for Few-Shot Action Recognition
论文提出了一种新颖的Generative Multimodal Prompt (GMP) 模型,用于处理多模态小样本(few-shot)情境下的多模态基于方面的情感激化分析,包括联合多模态方面-情感激化分析、多模态方面情感分类和多模态方面术语提取。
-
GMP模型由多模态编码器(ME)模块和N-Stream解码器(NSD)模块组成。
-
为了构建实用的小样本数据集,论文根据数据分布采用不同情感类别的组合来采样数据。
-
论文还引入了一个子任务,即预测每个实例中的方面术语数量,作为构建多模态提示的一部分。
-
利用ME和方面数解码器(AND)预测方面术语的数量。
-
通过ME和方面导向的提示解码器(APD)为每个方面生成方面导向的提示。
-
使用ME和情感导向的提示解码器(SPD)生成情感导向的提示。
-
构建了基于图像标题、预测的方面术语数量、方面提示和情感提示的特定多模态提示。
-
将多模态嵌入与多模态提示一起输入基于BART模型的多模态编码器-解码器,以生成三元组序列。
创新点:
· 生成式多模态提示(GMP):首次提出用于多模态小样本情境下的MABSA的GMP模型,包括多模态编码器和N-Stream解码器模块。
· 多任务学习:通过预测每个实例中的方面术语数量的子任务,增强了模型在小样本数据上的性能。
· 方面数量预测:引入方面数量预测作为子任务,以更好地构建多模态提示。
· 方面和情感导向的提示生成:根据多模态上下文生成针对每个方面的提示,以及针对情感的提示,以适应不同实例的特定需求。
· 多模态嵌入与提示结合:构建了结合图像、文本和预测信息的多模态嵌入,并与生成的提示结合,用于提高小样本学习的性能。
· 实验验证:在两个数据集上进行了广泛的实验,证明了所提出的方法在小样本设置下对JMASA和MASC任务的性能优于强基线模型。
· 针对小样本的模型优化:考虑了小样本学习中的挑战,通过多任务学习和生成式提示来优化模型,使其能够更好地适应标注数据有限的情况。
(GMP) 模型
GMP(Generative Pre-trained Model,生成式预训练模型)是一种基于深度学习的自然语言处理模型。它的核心思想是通过在大规模数据上进行预训练,学习到语言的语法、语义等知识,然后通过特定的微调任务(如文本生成、机器翻译、文本分类等)来应用这些知识。
GMP 模型的工作流程大致如下:
-
预训练阶段:模型在大量的无监督文本数据上进行训练,学习如何预测句子中的下一个词或生成与输入相关的文本。这一阶段使模型掌握了丰富的语言结构知识。
-
微调阶段:通过少量的标注数据,针对特定任务对模型进行微调,以适应特定的任务需求,如情感分析、问题回答等。
-
生成阶段:在实际应用中,GMP 模型可以根据输入生成相关的文本内容,如自动写作、对话生成等。
目前,像 GPT、BERT 这样的模型都是典型的生成式预训练模型的代表。
小样本(few-shot)情境
小样本(few-shot)学习是一种机器学习方法,旨在通过非常少量的训练示例来完成任务。在这种情境下,模型不需要大量的标注数据,而是利用少量的示例(甚至只有一两个),加上其预训练过程中获得的知识,来完成特定任务。
在自然语言处理中的few-shot情境通常有以下几种表现形式:
-
零样本学习(Zero-shot learning):模型在没有任何特定任务示例的情况下,利用其预训练知识来完成新任务。例如,给定一个未见过的任务描述,模型依靠理解语言的结构和语义去生成合理的输出。
-
少样本学习(Few-shot learning):模型在只有少量任务示例(例如 2-5 个)的情况下进行任务,依靠这些示例进行微调或推理。它可以更灵活地从少数数据中学习任务的目标。
-
单样本学习(One-shot learning):模型仅通过一个示例就能学会执行任务。比如,给模型提供一对输入-输出对,它能够学习到如何对其他类似输入产生正确的输出。
应用场景
Few-shot 学习非常适合那些无法获取大规模标注数据的场景,比如:
- 医学影像分析:由于患者隐私和数据稀缺性,标注数据极为有限。
- 个性化对话系统:通过少量示例快速生成特定风格或情感的回复。
- 自然语言推理:通过少量的例子来理解文本间的逻辑关系。
像 GPT-3 这样的模型广泛应用于 few-shot 学习,它能在给定少量任务描述和示例的情况下,通过其强大的预训练能力来执行特定任务
3、Few-shot Multimodal Sentiment Analysis Based on Multimodal Probabilistic Fusion Prompts
论文提出了一种新颖的方法,名为Multimodal Probabilistic Fusion Prompts(MultiPoint),用于处理小样本多模态情感分析问题
该方法首先引入了一种名为Consistently Distributed Sampling (CDS)的采样方法,确保小样本数据集的类别分布与完整数据集保持一致。
-
与传统的基于文本模态的提示方法不同,MultiPoint设计了统一的多模态提示,以减少不同模态之间的差异,并将多模态示例动态地融入每个多模态实例的上下文中。
-
为了增强模型的鲁棒性,论文引入了一种基于概率融合的方法,该方法融合了多个不同提示的输出预测。
-
在模型的训练中,使用了预训练的语言模型(如RoBERTa),并通过微调来适应特定的情感分类任务。
-
模型采用了多模态提示的细粒度设计,包括文本提示和图像提示,并通过特殊的标记(如)来引导模型预测情感类别。
-
模型使用了基于Bayesian Fusion的概率融合方法,结合来自不同多模态提示的预测,以获得更可靠和准确的结果。
创新点:
· Consistently Distributed Sampling (CDS):提出了一种新的采样方法,确保小样本数据集能够反映完整数据集的真实分布,提高了模型评估的准确性。
· 统一多模态提示:设计了结合文本和图像模态的统一提示,提高了多模态信息融合的效果。
· 多模态示例动态选择:通过相似度分数动态选择与训练数据集中特定标签最相似的多模态示例,作为上下文信息,增强了模型的鲁棒性。
· 基于概率融合的预测方法:引入了基于贝叶斯规则的概率融合方法,融合来自不同提示的预测,提高了预测的准确性和鲁棒性。
· 跨模态的提示设计:通过为文本和图像模态分别设计提示,并结合使用,来减少模态间的信息差异,提高模型对多模态信息的整合能力。
· 实验验证:在六个多模态情感数据集上进行了广泛的实验,证明了MultiPoint方法在小样本设置下优于现有的强基线模型。
· 多模态情感分析任务的适应性:模型能够适应粗粒度和细粒度的多模态情感分析任务,显示出良好的适应性和泛化能力。
CDS采样方法
在机器学习和统计学中,CDS(Class Distribution Sampling,类别分布采样)是一种处理类别不平衡问题的技术,特别是在分类任务中。类别不平衡是指在分类任务中某些类别的数据远多于其他类别,这会导致模型在训练过程中对多数类别产生偏向,而忽视少数类别。CDS 采样方法旨在解决这一问题,以便模型能够更公平地学习每个类别。
CDS 的主要采样方法有以下几种:
- 欠采样(Under-sampling):
- 方法:减少多数类别的数据量,使得多数类别的数据与少数类别数据的比例更接近。通过随机删除多数类别样本,平衡各类别的数据数量。
- 优点:减少了训练数据量,降低了计算成本。
- 缺点:可能会丢失有价值的信息,因为多数类别中的部分数据被丢弃了。
- 过采样(Over-sampling):
- 方法:通过复制少数类别的样本,或生成新的少数类别样本(如通过 SMOTE,Synthetic Minority Over-sampling Technique),使得少数类别的数据量与多数类别接近。
- 优点:保留了多数类别的全部信息,并通过增加少数类别样本平衡数据集。
- 缺点:容易导致模型过拟合,因为少数类别的数据被多次重复使用。
- 混合采样(Hybrid sampling):
- 方法:结合欠采样和过采样的优点。通常是对多数类别进行欠采样,同时对少数类别进行过采样,达到更平衡的类别分布。
- 优点:能够在不丢失多数类别样本信息的情况下,同时增加少数类别的样本。
- 缺点:混合采样的设计和实现可能比较复杂。
- 集成采样(Ensemble Sampling):
- 方法:利用集成学习的方法,将多个经过不同采样处理的数据集的模型进行集成。比如通过对多个欠采样模型的结果进行平均或投票,来避免单个欠采样模型的偏差。
- 优点:集成方法通常能够提高模型的稳定性和性能。
- 缺点:计算成本较高。
- 加权采样(Weighted Sampling):
- 方法:不对数据进行物理上的采样,而是在模型训练时给每个类别分配不同的权重,通常为类别样本数量的倒数。这样少数类别会被赋予较高的权重,使得模型在训练过程中更加关注这些类别。
- 优点:无需改变数据集,适合大规模数据场景。
- 缺点:可能会导致模型在处理少数类别时过度拟合。
选择采样方法时的考虑:
- 数据集的大小:较大的数据集适合加权采样或混合采样,而小数据集可能需要过采样以保证少数类别的代表性。
- 数据的稀疏性:如果少数类别的数据本身非常稀疏,过采样或 SMOTE 可能是更好的选择。
- 模型复杂性:简单的模型(如线性模型)对欠采样较敏感,而深度学习模型通常能够从更多的数据中受益,因此可能更适合加权采样或过采样。
CDS 采样方法可以显著改善模型在不平衡数据集上的性能,尤其在需要分类的任务中,如信用卡欺诈检测、医学诊断、或图像分类等。