摘要
构建能够仅使用少量标注示例迅速适应新任务的模型是多模态机器学习研究面临的一个挑战。我们引入了Flamingo模型,这是一种具备这种能力的视觉语言模型(VLM)。
我们提出了关键的架构创新:
- 链接强大的预训练视觉和语言模型;
- 处理任意交错排列的视觉和文本数据序列;
- 无缝接收图像或视频作为输入。
由于模型具有的灵活性,可以在包含任意交错文本和图像的大规模多模态网络语料库上进行训练,从而赋予它们上下文感知式少样本学习能力。我们对我们的模型进行了全面评估,探索并测量了它们快速适应各种图像和视频任务的能力,这些任务包括开放式任务,如视觉问答,在该任务中,模型需要回答给定问题;描述性任务评估描述场景或事件的能力;以及闭合任务例如多项选择视觉问答。对于位于此范围内任何位置上的任务,单个Flamingo模型只需通过使用特定于该任务的提示示例就可以实现少样本学习中最先进的水平。在许多基准测试正,Flamingo模型的表现优于经过数千倍更多特定于任务数据微调后得到的结果。
Figure 1: Selected examples of inputs and outputs obtained from Flamingo-80B. Flamingo can
rapidly adapt to various image/video understanding tasks with few-shot prompting (top). Out of
the box, Flamingo is also capable of multi-image visual dialogue (bottom).
Figure 2: Flamingo results overview. Left: Our largest model, dubbed Flamingo, outperforms
state-of-the-art fine-tuned models on 6 of the 16 tasks we consider with no fine-tuning. For the 9
tasks with published few-shot results, Flamingo sets the new few-shot state of the art. Note: We omit RareAct, our 16th benchmark, as it is a zero-shot benchmark with no available fine-tuned results to compare to. Right: Flamingo performance improves with model size and number of shots.