1 Abstract and Introduction
最近的GPT-4展示了非凡的多模态能力,例如直接从手写文本生成网站,以及识别图像中的幽默元素。这些特征在以前的视觉语言模型中很少观察到。我们认为GPT-4先进的多模式生成功能的主要原因在于使用了更先进的大型语言模型(LLM)。为了研究这一现象,我们提出了MiniGPT-4,它只使用一个投影层将冻结的视觉编码器与冻结的LLM, Vicuna(开源语言模型)对齐。我们的研究结果表明,MiniGPT-4具有许多与GPT-4类似的功能,如通过手写草稿生成详细的图像描述和创建网站。此外,我们还观察到MiniGPT-4中的其他新兴功能,包括根据给定的图像创作故事和诗歌,为图像中显示的问题提供解决方案,教用户如何根据食物照片烹饪等。在我们的实验中,我们发现,只有对原始图像-文本对进行预训练,才能产生缺乏连贯性的非自然语言输出,包括重复和碎片句子。为了解决这个问题,我们在第二阶段策划了一个高质量、对齐良好的数据集,以使用对话模板微调我们的模型。事实证明,这一数据集对于增强模型的生成可靠性和整体可用性至关重要。值得注意的是,我们的模型计算效率很高,因为我们只使用大约500万对对齐的图像-文本对来训练投影层。我们的代码、预先训练的模型和收集的数据集