NIPS2024论文《Visual instruction tuning》LLaVA视觉大模型技术介绍

AI菜鸟

已于 2024-04-09 11:26:58 修改

阅读量2.4k

点赞数 20

分类专栏：大语言模型文献调研文章标签：人工智能语言模型

于 2024-04-03 15:09:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37261357/article/details/137346497

版权

本文介绍了NIPS2024的一篇论文，LLaVA提出了一种基于COCO和GPT/GPT4的多模态指令跟随数据集，通过CLIP和Vicuna构建的大型语言模型在视觉推理任务上达到SOTA。论文详细阐述了数据集构建、模型框架及训练方法，为跨模态语言模型的发展提供了新视角。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是关于NIPS 2024的一篇oral论文《Visual instruction tuning》的简要技术介绍，这项工作提出的框架名称为LLaVA，全称为Large Language and Vision Assistant。作者构建了语言视觉指令（language-image instruction-following）数据集，并且使用该数据集微调了大型语言模型，使之在构建的两个benchmark以及ScienceQA任务上取得优秀的效果。本文的创新点在于：

基于COCO以及ChatGPT/GPT4生成了多模态指令跟随（multimodal instruction-following）数据集；
基于视觉编码器CLIP和语言解码器Vicuna构建了多模态的大型语言模型，可以在通用视觉问答以及ScienceQA等视觉推理任务中取得SOTA效果；
提出了两个指令跟随基准，可以用来评估多模态指令跟随任务的性能；
开源。

这篇论文是跨模态大型语言模型中的里程碑式作品，论文的数据集构造和跨模态大模型联合训练的思想被后续广大研究者借鉴使用。在阅读这篇文章时，读者可能会有疑惑：

视觉-指令数据集是怎么构建的？
如果要构建一个图片-指令的问答系统，模型的框架是怎样的？视觉模块和大型语言模型如何串联？
使用构建的数据集，如何才能将上述框架进行联合训练？
训练好一个可以实现视觉问答任务的模型，定性评价容易，怎样定量的评价这个模型的好坏？
为什么这些微调方式可以提高视觉语言模型的推理性能？

我们通过这篇文章来回答上面的疑问。

有关本专栏的更多内容，请参考大语言模型文献调研专栏目录

目录

1. 论文基本信息
- 1.1 资源
- 1.2 研究背景
2. 使用GPT构建指令生成数据集
3. 视觉指令微调
4. 实验部分
- 4.1 量化评测指标
- 4.2 两个Benchmark

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。