​CVPR 2023 | Prophet: 用小模型启发大语言模型解决外部知识图像问答

7836e68b0ac0ae709d08ac412eab5843.gif

©PaperWeekly 原创 · 作者 | 邵镇炜

单位 | 杭州电子科技大学

研究方向 | 跨模态学习

大规模语言模型(Large Language Model,LLM)无疑是时下最火热的 AI 概念,它不仅是人工智能领域近两年的研究热点,也在近期引发了全社会的广泛关注和讨论,OpenAI 的 GPT-3 和 ChatGPT 更是数次登上微博热搜。

LLM 强大的语言理解能力和知识储备,给大众留下了深刻的印象。LLM 所涌现的 in-context learning 能力,更是开启了新的 NLP 范式,并使其有望成为以自然语言进行交互的通用型任务助手(ChatGPT)。LLM 的出现也为跨模态深度学习领域的研究者们带来新的机遇和挑战。

通过收集自互联网的大规模语料进行预训练,GPT-3 等 LLM 蕴含了丰富的世界知识,这使其有希望解决知识驱动的多模态任务,例如基于外部知识的图像问答任务,OK-VQA [1]。但是,想要利用 LLM 的潜力解决多模态问题,有一个关键问题需要解决:LLM 以语言进行输入输出,如何使她能够理解其他模态的数据,如图片,并迁移到下游多模态任务呢?

PICa [2] 提出使用 Image Caption 模型将图片转化为文本描述,然后输入给 GPT-3 使其回答关于图片的问题,该方法在 OK-VQA 数据集上超越了传统方法。但是由于 caption 未必能覆盖图片的全部信息,因此这一方法存在性能瓶颈。另一个容易想到的解决方案是,在预训练的 LLM 基础上,增加用来对接另一个模态输入的网络参数,并通过微调来得到一个跨模态的大模型。

Deepmind 的 Flamingo [3] 模型采用了这一方案,训练了一个 800 万参数量的视觉-语言模型,并在 OK-VQA 上达到新的 SOTA。但是训练这样的模型往往需要消耗大量的计算资源,动辄上百上千块 GPU,这是学术界的大部分研究者难以负担的。那么,如何能够既享受到 LLM 的强大能力,又通过有限的计算资源在跨模态任务上达到先进的性能呢?

我们近期的论文给出了一个新的答案:用好小模型!论文 Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering 提出了名为 Prophet 的框架,通过在 LLM 上游引入一个可学习的、任务相关的视觉问答小模型,来更好地激发大模型的潜力。

Prophet 这个名字既是 Prompt with answer heuristics 的缩写,也契合了 Prophet 框架的精神,我们希望 GPT-3 如一个先知一般对预兆(来自小模型的答案启发)进行理解和阐释。Prophet 仅需要 1 块 3090 显卡和少量 OpenAI API 的调用,就可以实现超越 Flamingo 的性能,并在两个基于外部知识的视觉问答数据集 OK-VQA [1] 和 A-OKVQA [4] 上创造了新的 SOTA。该论文现已被 CVPR 2023 录用。

508b917a8d4fef5e338b93dc18604607.png

论文链接:

https://arxiv.org/abs/2303.01903

开源代码:

https://github.com/MILVLG/prophet

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值