本文是关于NIPS 2024的一篇oral论文《Visual instruction tuning》的简要技术介绍,这项工作提出的框架名称为LLaVA,全称为Large Language and Vision Assistant。作者构建了语言视觉指令(language-image instruction-following)数据集,并且使用该数据集微调了大型语言模型,使之在构建的两个benchmark以及ScienceQA任务上取得优秀的效果。本文的创新点在于:
- 基于COCO以及ChatGPT/GPT4生成了多模态指令跟随(multimodal instruction-following)数据集;
- 基于视觉编码器CLIP和语言解码器Vicuna构建了多模态的大型语言模型,可以在通用视觉问答以及ScienceQA等视觉推理任务中取得SOTA效果;
- 提出了两个指令跟随基准,可以用来评估多模态指令跟随任务的性能;
- 开源。
这篇论文是跨模态大型语言模型中的里程碑式作品,论文的数据集构造和跨模态大模型联合训练的思想被后续广大研究者借鉴使用。在阅读这篇文章时,读者可能会有疑惑:
- 视觉-指令数据集是怎么构建的?
- 如果要构建一个图片-指令的问答系统,模型的框架是怎样的?视觉模块和大型语言模型如何串联?
- 使用构建的数据集,如何才能将上述框架进行联合训练?
- 训练好一个可以实现视觉问答任务的模型,定性评价容易,怎样定量的评价这个模型的好坏?
- 为什么这些微调方式可以提高视觉语言模型的推理性能?
我们通过这篇文章来回答上面的疑问。
有关本专栏的更多内容,请参考大语言模型文献调研专栏目录