CVPR 2023 | Prophet: 用小模型启发大语言模型解决外部知识图像问答

最新推荐文章于 2024-05-29 14:23:25 发布

PaperWeekly

最新推荐文章于 2024-05-29 14:23:25 发布

阅读量1k

点赞数 2

文章标签：语言模型人工智能自然语言处理深度学习机器学习

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/129659231

版权

©PaperWeekly 原创 · 作者 | 邵镇炜

单位 | 杭州电子科技大学

研究方向 | 跨模态学习

大规模语言模型（Large Language Model，LLM）无疑是时下最火热的 AI 概念，它不仅是人工智能领域近两年的研究热点，也在近期引发了全社会的广泛关注和讨论，OpenAI 的 GPT-3 和 ChatGPT 更是数次登上微博热搜。

LLM 强大的语言理解能力和知识储备，给大众留下了深刻的印象。LLM 所涌现的 in-context learning 能力，更是开启了新的 NLP 范式，并使其有望成为以自然语言进行交互的通用型任务助手（ChatGPT）。LLM 的出现也为跨模态深度学习领域的研究者们带来新的机遇和挑战。

通过收集自互联网的大规模语料进行预训练，GPT-3 等 LLM 蕴含了丰富的世界知识，这使其有希望解决知识驱动的多模态任务，例如基于外部知识的图像问答任务，OK-VQA [1]。但是，想要利用 LLM 的潜力解决多模态问题，有一个关键问题需要解决：LLM 以语言进行输入输出，如何使她能够理解其他模态的数据，如图片，并迁移到下游多模态任务呢？

PICa [2] 提出使用 Image Caption 模型将图片转化为文本描述，然后输入给 GPT-3 使其回答关于图片的问题，该方法在 OK-VQA 数据集上超越了传统方法。但是由于 caption 未必能覆盖图片的全部信息，因此这一方法存在性能瓶颈。另一个容易想到的解决方案是，在预训练的 LLM 基础上，增加用来对接另一个模态输入的网络参数，并通过微调来得到一个跨模态的大模型。

Deepmind 的 Flamingo [3] 模型采用了这一方案，训练了一个 800 万参数量的视觉-语言模型，并在 OK-VQA 上达到新的 SOTA。但是训练这样的模型往往需要消耗大量的计算资源，动辄上百上千块 GPU，这是学术界的大部分研究者难以负担的。那么，如何能够既享受到 LLM 的强大能力，又通过有限的计算资源在跨模态任务上达到先进的性能呢？

我们近期的论文给出了一个新的答案：用好小模型！论文 Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering 提出了名为 Prophet 的框架，通过在 LLM 上游引入一个可学习的、任务相关的视觉问答小模型，来更好地激发大模型的潜力。

Prophet 这个名字既是 Prompt with answer heuristics 的缩写，也契合了 Prophet 框架的精神，我们希望 GPT-3 如一个先知一般对预兆（来自小模型的答案启发）进行理解和阐释。Prophet 仅需要 1 块 3090 显卡和少量 OpenAI API 的调用，就可以实现超越 Flamingo 的性能，并在两个基于外部知识的视觉问答数据集 OK-VQA [1] 和 A-OKVQA [4] 上创造了新的 SOTA。该论文现已被 CVPR 2023 录用。

论文链接：

https://arxiv.org/abs/2303.01903

开源代码：

https://github.com/MILVLG/prophet

最低0.47元/天解锁文章

PaperWeekly

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
CVPR 2023 | Prophet: 用小模型启发大语言模型解决外部知识图像问答

©PaperWeekly 原创 ·作者 |邵镇炜单位 |杭州电子科技大学研究方向 |跨模态学习大规模语言模型（Large Language Model，LLM）无疑是时下最火热的 AI 概念，它不仅是人工智能领域近两年的研究热点，也在近期引发了全社会的广泛关注和讨论，OpenAI 的 GPT-3 和 ChatGPT 更是数次登上微博热搜。LLM 强大的语言理解能力和知识储备，给大众留下了深...
复制链接

扫一扫