【多模态学习笔记二】MINIGPT-4论文阅读

最新推荐文章于 2024-09-17 21:11:18 发布

Jeremy_lf

最新推荐文章于 2024-09-17 21:11:18 发布

阅读量910

点赞数 30

文章标签：论文阅读多模态 minigpt-4 llava

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Jeremy_lf/article/details/140365138

版权

MINIGPT-4:ENHANCING VISION-LANGUAGE UNDERSTANDING WITH ADVANCED LARGE LANGUAGE MODELS

提出的MiniGPT-4使用一个投影层，将冻结的视觉编码器与冻结的先进的LLM Vicuna对齐。我们的工作首次揭示，将视觉特征与先进的大型语言模型正确对齐可以具有GPT-4所展示的许多先进的多模态能力，例如从手绘草稿生成详细的图像描述和创建网站。在我们的实验中，我们发现，在短图像字幕对上训练的模型会产生不自然的语言输出（例如重复和片段化）。为了解决这个问题，我们在第二阶段使用了一个详细的图像描述数据集来微调模型，从而提高了模型的生成可靠性和整体可用性。

在这里插入图片描述
MiniGPT-4添加了一个 single projection layer，将编码的视觉特征与Vicuna语言模型对齐，并冻结所有其他视觉和语言组件。MiniGPT-4最初在4个A100 GPU上使用256的批量大小训练20k步，利用组合图像字幕数据集，其中包括来自LAION、概念字幕和SBU的图像，将视觉特征与Vicuna语言模型对齐。然而，仅仅将视觉特征与语言模型（LLM）对齐不足以确保强大的视觉对话能力，就像聊天机器人一样。原始图像文本对中潜在噪声的存在可能会导致语言输出低于标准。因此，我们收集了另外3500个详细的图像描述对，用设计的对话模板进一步微调模型，以提高生成语言的自然度和可用性。

最低0.47元/天解锁文章

关注

30
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。