Can We Edit Multimodal Large Language Models?阅读笔记

sev7777777

于 2024-02-14 17:55:24 发布

阅读量792

点赞数 16

文章标签：语言模型笔记人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sev7777777/article/details/136114664

版权

这篇论文探讨了如何在多模态模型中编辑知识，评估了现有编辑技术在图像和文本混合场景下的表现。研究构建了专门的数据集，发现现有方法在多模态编辑上效果有限，需要更高效、鲁棒的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文阅读笔记（一）

Can We Edit Multimodal Large Language Models?

Cheng S, Tian B, Liu Q, et al. Can We Edit Multimodal Large Language Models?[C]//Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. 2023: 13877-13888.

论文导读

模型编辑是近期NLP领域较为热门的研究方向之一，其目标是在避免重新训练模型或者高成本微调模型的前提下，实现对模型内错误参数知识的纠正或者外部新知识的注入。目前的模型编辑主要面向大规模语言模型，并且已经展示出一定效果，然而，面向文本的模型编辑技术是否能在图像、多模态类模型上仍然有效，仍是需要探索的问题。该文将面向多模态编辑任务，验证、分析已有知识编辑模型在多模态编辑上的效果。

摘要解读

摘要开句介绍了该文研究任务：多模态模型编辑。

进一步引出与单模态编辑相比存在的挑战：相比于单模态编辑，多模态编辑需要考虑更多的影响因素，如导致模型错误的原因是文本特征还是图像特征还是其他原因。

接下来介绍了本文做的事情：构建了一个用于评估多模态编辑的数据集；在不同模态的模型上测试了多种基线编辑模型的效果并对结果进行了分析

最后介绍了实验的结论以及发现：已有编辑模型在多模态编辑任务上有一定效果，但还不够好，需要提出更加高效、鲁棒的方法来实现多模态模型编辑。

引言解读

引言第一段和第二段分别对应摘要中前两句，简要介绍了模型编辑的定义以及意义，并进一步强调了多模态编辑的必要性和存在的挑战：模型出现错误的原因更加多样化，难以确定，并且修改难度更大。

第三段介绍了本文针对多模态编辑提出的数据集并且借鉴文本上的编辑给出了多模态编辑的评价指标：Reliability, Locality, and Generality。

第四段给出多模态编辑的3个评价指标定义以及评估方法，进一步介绍了实验设置和实验结论，最后强调了本文的3个贡献：

1.首次将模型编辑拓展到多模态编辑上，扩大了模型编辑应用范围。

2.针对多模态编辑，给出任务定义，评价指标并构建数据集对已有编辑方法进行评估。

3.介绍实验结论，发现已有方法在多模态编辑上的效果一般，需要提出更加鲁棒的模型编辑方法。

结合第二三四段内容以及图1，可以基本了解多模态编辑在干什么：

如图中所示，在编辑前，当给定一段问题描述以及相应图片时，模型将图片中的“street barrie” 错误识别为了“ladder”。通过模型编辑，可以让模型重新认识到“street barrie”（实现了Reliability和Generality），同时保持模型对其他实体如“little bear”的认知（实现了Locality）。

相关工作解读

作者首先对多模态语言模型的近期发展和代表性工作进行了介绍（ViT，CLIP，LLaMA，BLOOM，ChatGPT等）。

进一步作者对模型编辑相关工作进行了介绍，按照更新参数的计算方式，可以分为以下3类：

Meta-learning Method
这类方法通过训练额外组件或者额外参数来获取被更新的参数，代表工作有：MEND，KE，T-Patch。
Locate-Then-Edit Method
这类方法通过定位与被修改知识相关的参数并针对该部分参数进行更新，实现模型编辑。
In-Context Knowledge Editing Method
这类方法通过对输入信息的编辑来实现对模型输出的控制。

以上方法都面向单模态的模型编辑，是否能在多模态模型上起作用是该文的重点！

方法解读

多模态编辑示意图：

图像上半部分表示多模态模型推理过程测，先将图片通过Image-Encoder进行编码表示，再与文本和问题拼接通过文本编辑器进行表示，最后得到文本格式的输出。

图像下半部分表示分别使用模型编辑方法对图像编码起或者文本编码器进行参数更新，实现模型输出的更新。

任务定义

对于一个多模态模型LLM f, 输入包含图像输入 $i_e$

最低0.47元/天解锁文章

博客等级

码龄5年

10
原创

102
点赞

99
收藏

76
粉丝

关注

私信

热门文章

分类专栏

图神经网络 1篇

最新评论

检索还是长文本？RETRIEVAL MEETS LONG CONTEXT LARGE LANGUAGE MODELS --- ICLR 2024
CSDN-Ada助手: 恭喜作者发布第9篇博客！标题“检索还是长文本？RETRIEVAL MEETS LONG CONTEXT LARGE LANGUAGE MODELS --- ICLR 2024”引人注目，展示了作者对当下热门话题的关注和深度思考。建议作者在下一篇博客中可以探讨一些具体案例，结合实际应用场景，为读者提供更多实用的参考价值。期待您的继续创作！
Gemini对Gemini和Gemma的介绍。
CSDN-Ada助手: 亲爱的作者，恭喜你写了第8篇博客！看到你对Gemini和Gemma的介绍，我感到很高兴，你对这个主题有着深入的了解和独特的见解。希望你能继续坚持创作，分享更多有趣的内容给我们。或许下一步可以深入探讨Gemini和Gemma的相似之处和差异之处，或者分享一些与它们相关的故事和趣闻。期待你的下一篇博客！加油！
Can We Edit Multimodal Large Language Models?阅读笔记
CSDN-Ada助手: 恭喜您撰写第5篇博客！题为“Can We Edit Multimodal Large Language Models?”的内容引人深思。您对多模态大型语言模型的编辑能力进行了探讨，这在当前的技术领域中是一个热门话题。我很欣赏您的研究和分享。在下一步的创作中，我建议您可以进一步扩展您的研究内容，比如介绍一些最新的编辑技术或者应用案例。同时，您可以考虑加入更多实证分析或者案例研究，以便更好地展示多模态大型语言模型的编辑潜力。期待您在未来的博客中继续分享您的见解和研究成果！
NLP科研小白如何快速入门导师分配的课题
CSDN-Ada助手: 恭喜您写了第三篇博客！标题“NLP科研小白如何快速入门导师分配的课题”非常吸引人。阅读您的博客，我发现您对于NLP的研究有着浓厚的兴趣，并且有着很好的记录和总结能力。您的经验分享对于其他NLP科研小白来说将是一份宝贵的指南。在下一步的创作中，我建议您可以尝试更加深入地探讨一些具体的NLP研究课题，或者分享一些实践经验。或许您可以介绍一些常见的NLP算法或模型，并提供一些实际应用案例。这样的内容将会对广大读者有着很大的帮助。再次恭喜您，并期待您未来更多的创作！谢谢您的分享！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
NLPer如何快速了解当前研究方向趋势？
CSDN-Ada助手: 恭喜作者能够持续创作，这篇博客内容实用且有深度。接下来，建议可以结合具体的案例或者实践经验，进一步深化对当前研究方向趋势的认识，这样不仅可以提升文章的可信度，也能够让读者更加深入地了解相关内容。希望作者能够继续保持创作热情，期待更多精彩的内容！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。