An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA

最新推荐文章于 2024-08-15 16:46:21 发布

UnknownBody

最新推荐文章于 2024-08-15 16:46:21 发布

阅读量883

点赞数

文章标签： gpt-3 人工智能

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/132665576

版权

LLM 日更专栏收录该内容

515 篇文章 3 订阅

已下架不支持订阅

本文介绍了一种名为PICa的方法，利用GPT-3进行基于知识的视觉问答（VQA）。不同于传统两步方法，PICa直接将GPT-3作为非结构化知识库，通过图像字幕提示进行联合知识获取和处理。在仅使用16个示例的情况下，PICa在OK-VQA上超越了监督技术，展现出优秀的小样本性能。

摘要由CSDN通过智能技术生成

本文是LLM系列文章，针对《An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA》的翻译。

摘要

基于知识的视觉问答（VQA）涉及回答需要图像中不存在的外部知识的问题。现有的方法首先从外部资源中检索知识，然后对所选知识、输入图像和问答预测进行推理。然而，这种两步走的方法可能会导致失配，从而潜在地限制VQA性能。例如，检索到的知识可能是嘈杂的，与问题无关，并且在推理过程中重新嵌入的知识特征可能偏离其在知识库（KB）中的原始含义。为了应对这一挑战，我们提出了PICa，这是一种简单而有效的方法，通过使用图像字幕来提示GPT3，用于基于知识的VQA。受GPT-3在知识检索和问答方面的能力的启发，我们不再像以前的工作那样使用结构化知识库，而是将GPT-3视为一种隐式和非结构化知识库来联合获取和处理相关知识。具体来说，我们首先将图像转换为GPT-3能够理解的字幕（或标签），然后通过提供几个上下文中的VQA示例，调整GPT-3以以多样本的方式解决VQA任务。我们通过仔细研究来进一步提高性能：（i）什么样的文本格式最能描述图像内容，以及（ii）如何更好地选择和使用上下文中的示例。PICa解锁了GPT-3在多模式任务中的首次使用。通过仅使用16个示例，PICa在OK-VQA数据集上以绝对值+8.6分的优势超过了监督的现有技术。我们还在VQAv2上对PICa进行了基准测试，其中PICa也表现出了不错的小样本性能。

引言

方法

了解本专栏

UnknownBody

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA

基于知识的视觉问答（VQA）涉及回答需要图像中不存在的外部知识的问题。现有的方法首先从外部资源中检索知识，然后对所选知识、输入图像和问答预测进行推理。然而，这种两步走的方法可能会导致失配，从而潜在地限制VQA性能。例如，检索到的知识可能是嘈杂的，与问题无关，并且在推理过程中重新嵌入的知识特征可能偏离其在知识库（KB）中的原始含义。为了应对这一挑战，我们提出了PICa，这是一种简单而有效的方法，通过使用图像字幕来提示GPT3，用于基于知识的VQA。
复制链接

扫一扫