note
- 当前很多MLLM多模态大模型,用于视觉问答-聊天机器人,很少评估图片分类能力。在领域SFT数据微调后,EMT框架是评估微调后模型在几个分类数据集上效果,来评估是否出现灾难性遗忘
- 实验现象:多数微调后模型的效果,比基础视觉编码器CLIP分数更低。评估的模型:用EMT来评估四个模型:LLaVA、Otter、LENS和InstructBLIP。
- 微调实验结论:Lora微调比线性微调(微调线性适配器adapter)导致更多遗忘
多模态之灾难性遗忘EMT评估框架
论文:《Investigating the Catastrophic Forgetting in Multimodal Large Language Models》
论文地址:https://arxiv.org/abs/2309.10313
MLLM的EMT评估流程
研究团队引入了首个研究MLLM灾难性遗忘的评估框架——EMT(Evaluating MulTimodality)。在多个基准上评估4个模型后,发现多数模型无法保持与其基础视觉编码器(CLIP)相似的分类性能。同时,在一个数据集上对LLaVA进行微调会导致在其他数据集上出现灾难性遗忘。
MLLM的EMT评估流程如下:
- (1) 提示每个MLLM作为图像分类器输入来自分类任务的图像;
- (2) 要求MLLM明确回答分类任务中的单个标签。并使用另一个LLM评估每个输出的正确性。
2个关键贡献:
- 提出了EMT,一个专门设计用于评估MLLM中灾难性遗忘现象的评估框架。据研究人员所知,它是第一个通过分类研究MLLM灾难性遗忘的评估框架。通过EMT,研究团队发现几乎所有测试的模型都无法保留其视觉编码器的分类性能。
- 对LLaVA进行了微调实验。实验结果表明,适度的微调对于非微调任务是有利的,但过度的微调最终会导致这些任务中的灾难性遗忘。
微调LLaVA
研究人员使用EMT来评估LLaVA微调过程中的精度变化。在此,他们使用LLaVA-7b和LLaVA-13b作为基础MLLM进行微调,并且分别在MNIST、CIFAR-10、CIFAR-100和 miniImagenet上进行微调实验。
微调方法
具体方法是微调:
(1)线性适配器层(表示为线性微调);
(2)线性适配器层和使用Lora的LLM(表示为lora)。
下图展示了3个epoch微调结果。虽然LLaVA的性能确实在微调数据集上有所提高,但图中揭示了MLLM微调的一个关键问题:在一个数据集上微调MLLM会降低另一非微调数据集上的性能。
由于该模型除了经过微调的数据集之外没有接触过其他数据集,因此理所当然会观察到与灾难性遗忘类似的影响。
经过微调实验表明:
- 在一个数据集上进行微调会导致其他数据集上的灾难性遗忘,这种现象在线性微调和Lora微调中都会发生
- Lora微调比线性微调导致更多遗忘
微调模型的精确度分析
从下图的实验结果来看,随着在a数据集上微调越多epoch,在a数据上效果越接近100%,在另外三个数据集上准确度越低(知识遗忘):
从分类曲线中可以看出:
- 线性微调具有普适性,因为使用RGB数据集(CIFAR10、CIFAR100、miniImageNet)进行线性微调也能在第一个epoch提高其他RGB数据集的准确率
- Lora微调不具备线性微调的通用性
检测预测结果
当研究人员检查微调LLaVA的输出时发现:它会输出与其微调数据集相关的文本,同时忽略与其原始提示相关的问题,从而产生幻觉。为了进一步说明这一现象,研究团队提供了对LLaVA-7b和LLaVA-13b进行分类的明确示例,这些示例已使用EMT提示在不同数据集上进行了微调。
- 微调MLLM确实提高了微调数据集的分类性能
- 微调MLLM在其他数据集上会导致灾难性遗忘,因为微调MLLM会记忆微调数据集,从而产生幻觉文本
备注:大模型的训练少不了算力资源,博主和一些平台有合作~
高性价比4090算力租用,注册就送20元代金券,更有内容激励活动,点击。
GPU云服务器租用,P40、4090、V100S多种显卡可选,点击。
Reference
[1] Investigating the Catastrophic Forgetting in Multimodal Large Language Models