【LLM多模态】多模态LLM的EMT灾难性遗忘评估框架

山顶夕景

已于 2024-05-25 16:56:10 修改

阅读量873

点赞数 26

分类专栏： # 多模态大模型 # LLM大模型文章标签：多模态灾难性遗忘大模型幻觉

于 2024-05-20 22:45:51 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35812205/article/details/139075769

版权

LLM大模型同时被 2 个专栏收录

123 篇文章

订阅专栏

多模态大模型

37 篇文章

订阅专栏

note

当前很多MLLM多模态大模型，用于视觉问答-聊天机器人，很少评估图片分类能力。在领域SFT数据微调后，EMT框架是评估微调后模型在几个分类数据集上效果，来评估是否出现灾难性遗忘
实验现象：多数微调后模型的效果，比基础视觉编码器CLIP分数更低。评估的模型：用EMT来评估四个模型：LLaVA、Otter、LENS和InstructBLIP。
微调实验结论：Lora微调比线性微调（微调线性适配器adapter）导致更多遗忘

文章目录

note
多模态之灾难性遗忘EMT评估框架
Reference

多模态之灾难性遗忘EMT评估框架

论文：《Investigating the Catastrophic Forgetting in Multimodal Large Language Models》
论文地址：https://arxiv.org/abs/2309.10313
在这里插入图片描述

MLLM的EMT评估流程

研究团队引入了首个研究MLLM灾难性遗忘的评估框架——EMT（Evaluating MulTimodality）。在多个基准上评估4个模型后，发现多数模型无法保持与其基础视觉编码器（CLIP）相似的分类性能。同时，在一个数据集上对LLaVA进行微调会导致在其他数据集上出现灾难性遗忘。

MLLM的EMT评估流程如下：

(1) 提示每个MLLM作为图像分类器输入来自分类任务的图像；
(2) 要求MLLM明确回答分类任务中的单个标签。并使用另一个LLM评估每个输出的正确性。

2个关键贡献：

提出了EMT，一个专门设计用于评估MLLM中灾难性遗忘现象的评估框架。据研究人员所知，它是第一个通过分类研究MLLM灾难性遗忘的评估框架。通过EMT，研究团队发现几乎所有测试的模型都无法保留其视觉编码器的分类性能。
对LLaVA进行了微调实验。实验结果表明，适度的微调对于非微调任务是有利的，但过度的微调最终会导致这些任务中的灾难性遗忘。

微调LLaVA

研究人员使用EMT来评估LLaVA微调过程中的精度变化。在此，他们使用LLaVA-7b和LLaVA-13b作为基础MLLM进行微调，并且分别在MNIST、CIFAR-10、CIFAR-100和 miniImagenet上进行微调实验。

微调方法

具体方法是微调：
（1）线性适配器层（表示为线性微调）；
（2）线性适配器层和使用Lora的LLM（表示为lora）。

下图展示了3个epoch微调结果。虽然LLaVA的性能确实在微调数据集上有所提高，但图中揭示了MLLM微调的一个关键问题：在一个数据集上微调MLLM会降低另一非微调数据集上的性能。

由于该模型除了经过微调的数据集之外没有接触过其他数据集，因此理所当然会观察到与灾难性遗忘类似的影响。

在这里插入图片描述

在这里插入图片描述

经过微调实验表明：

在一个数据集上进行微调会导致其他数据集上的灾难性遗忘，这种现象在线性微调和Lora微调中都会发生
Lora微调比线性微调导致更多遗忘

微调模型的精确度分析

从下图的实验结果来看，随着在a数据集上微调越多epoch，在a数据上效果越接近100%，在另外三个数据集上准确度越低（知识遗忘）：
在这里插入图片描述

在这里插入图片描述

从分类曲线中可以看出：

线性微调具有普适性，因为使用RGB数据集（CIFAR10、CIFAR100、miniImageNet）进行线性微调也能在第一个epoch提高其他RGB数据集的准确率
Lora微调不具备线性微调的通用性

检测预测结果

当研究人员检查微调LLaVA的输出时发现：它会输出与其微调数据集相关的文本，同时忽略与其原始提示相关的问题，从而产生幻觉。为了进一步说明这一现象，研究团队提供了对LLaVA-7b和LLaVA-13b进行分类的明确示例，这些示例已使用EMT提示在不同数据集上进行了微调。

微调MLLM确实提高了微调数据集的分类性能
微调MLLM在其他数据集上会导致灾难性遗忘，因为微调MLLM会记忆微调数据集，从而产生幻觉文本

备注：大模型的训练少不了算力资源，博主和一些平台有合作~
高性价比4090算力租用，注册就送20元代金券，更有内容激励活动，点击。
GPU云服务器租用，P40、4090、V100S多种显卡可选，点击。

Reference

[1] Investigating the Catastrophic Forgetting in Multimodal Large Language Models

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

山顶夕景 小哥哥给我买个零食可好

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。