Flamingo Model - 一种通过few-shots方法的VLM(Vision-Language Model)

摘要

        构建能够仅使用少量标注示例迅速适应新任务的模型是多模态机器学习研究面临的一个挑战。我们引入了Flamingo模型,这是一种具备这种能力的视觉语言模型(VLM)。

        我们提出了关键的架构创新:

  1. 链接强大的预训练视觉和语言模型;
  2. 处理任意交错排列的视觉和文本数据序列;
  3. 无缝接收图像或视频作为输入。

        由于模型具有的灵活性,可以在包含任意交错文本和图像的大规模多模态网络语料库上进行训练,从而赋予它们上下文感知式少样本学习能力。我们对我们的模型进行了全面评估,探索并测量了它们快速适应各种图像和视频任务的能力,这些任务包括开放式任务,如视觉问答,在该任务中,模型需要回答给定问题;描述性任务评估描述场景或事件的能力;以及闭合任务例如多项选择视觉问答。对于位于此范围内任何位置上的任务,单个Flamingo模型只需通过使用特定于该任务的提示示例就可以实现少样本学习中最先进的水平。在许多基准测试正,Flamingo模型的表现优于经过数千倍更多特定于任务数据微调后得到的结果。

 Figure 1: Selected examples of inputs and outputs obtained from Flamingo-80B. Flamingo can
rapidly adapt to various image/video understanding tasks with few-shot prompting (top). Out of
the box, Flamingo is also capable of multi-image visual dialogue (bottom).

Figure 2: Flamingo results overview. Left: Our largest model, dubbed Flamingo, outperforms
state-of-the-art fine-tuned models on 6 of the 16 tasks we consider with no fine-tuning. For the 9
tasks with published few-shot results, Flamingo sets the new few-shot state of the art. Note: We omit RareAct, our 16th benchmark, as it is a zero-shot benchmark with no available fine-tuned results to compare to. Right: Flamingo performance improves with model size and number of shots. 

Why we nee

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值