论文阅读笔记(一)
Can We Edit Multimodal Large Language Models?
Cheng S, Tian B, Liu Q, et al. Can We Edit Multimodal Large Language Models?[C]//Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. 2023: 13877-13888.
论文导读
模型编辑是近期NLP领域较为热门的研究方向之一,其目标是在避免重新训练模型或者高成本微调模型的前提下,实现对模型内错误参数知识的纠正或者外部新知识的注入。目前的模型编辑主要面向大规模语言模型,并且已经展示出一定效果,然而,面向文本的模型编辑技术是否能在图像、多模态类模型上仍然有效,仍是需要探索的问题。该文将面向多模态编辑任务,验证、分析已有知识编辑模型在多模态编辑上的效果。
摘要解读
摘要开句介绍了该文研究任务:多模态模型编辑。
进一步引出与单模态编辑相比存在的挑战:相比于单模态编辑,多模态编辑需要考虑更多的影响因素,如导致模型错误的原因是文本特征还是图像特征还是其他原因。
接下来介绍了本文做的事情:构建了一个用于评估多模态编辑的数据集;在不同模态的模型上测试了多种基线编辑模型的效果并对结果进行了分析
最后介绍了实验的结论以及发现:已有编辑模型在多模态编辑任务上有一定效果,但还不够好,需要提出更加高效、鲁棒的方法来实现多模态模型编辑。
引言解读
引言第一段和第二段分别对应摘要中前两句,简要介绍了模型编辑的定义以及意义,并进一步强调了多模态编辑的必要性和存在的挑战:模型出现错误的原因更加多样化,难以确定,并且修改难度更大。
第三段介绍了本文针对多模态编辑提出的数据集并且借鉴文本上的编辑给出了多模态编辑的评价指标:Reliability, Locality, and Generality。
第四段给出多模态编辑的3个评价指标定义以及评估方法,进一步介绍了实验设置和实验结论,最后强调了本文的3个贡献:
1.首次将模型编辑拓展到多模态编辑上,扩大了模型编辑应用范围。
2.针对多模态编辑,给出任务定义,评价指标并构建数据集对已有编辑方法进行评估。
3.介绍实验结论,发现已有方法在多模态编辑上的效果一般,需要提出更加鲁棒的模型编辑方法。
结合第二三四段内容以及图1,可以基本了解多模态编辑在干什么:
如图中所示,在编辑前,当给定一段问题描述以及相应图片时,模型将图片中的“street barrie” 错误识别为了“ladder”。通过模型编辑,可以让模型重新认识到“street barrie”(实现了Reliability和Generality),同时保持模型对其他实体如“little bear”的认知(实现了Locality)。
相关工作解读
作者首先对多模态语言模型的近期发展和代表性工作进行了介绍(ViT,CLIP,LLaMA,BLOOM,ChatGPT等)。
进一步作者对模型编辑相关工作进行了介绍,按照更新参数的计算方式,可以分为以下3类:
- Meta-learning Method
这类方法通过训练额外组件或者额外参数来获取被更新的参数,代表工作有:MEND,KE,T-Patch。 - Locate-Then-Edit Method
这类方法通过定位与被修改知识相关的参数并针对该部分参数进行更新,实现模型编辑。 - In-Context Knowledge Editing Method
这类方法通过对输入信息的编辑来实现对模型输出的控制。
以上方法都面向单模态的模型编辑,是否能在多模态模型上起作用是该文的重点!
方法解读
多模态编辑示意图:
图像上半部分表示多模态模型推理过程测,先将图片通过Image-Encoder进行编码表示,再与文本和问题拼接通过文本编辑器进行表示,最后得到文本格式的输出。
图像下半部分表示分别使用模型编辑方法对图像编码起或者文本编码器进行参数更新,实现模型输出的更新。
任务定义
对于一个多模态模型LLM f
, 输入包含图像输入 i e i_e ie