AVIS: Autonomous Visual Information Seeking with Large Language Model Agent

在这里插入图片描述

一、文章主要内容总结

本文提出了一种名为AVIS的自主视觉信息检索问答框架,旨在解决需要外部知识的视觉问答(VQA)任务(如“图中建筑纪念的是什么事件?”)。该框架核心是利用大型语言模型(LLM)作为智能体,通过动态决策和树搜索策略调用外部工具,逐步获取回答所需的关键知识,最终实现对复杂视觉问题的精准应答。

  1. 核心挑战:现有视觉语言模型(VLMs)在需要细粒度信息、外部知识或图像元数据比对的任务(如Infoseek、OK-VQA数据集)中表现不佳,原因包括缺乏细粒度训练目标、推理能力受限、无法关联大规模图像 corpus 等。
  2. 系统架构
    • 规划器(Planner):基于当前状态、人类决策转换图和工作记忆,动态选择下一个调用的工具及查询内容。
    • 推理器(Reasoner):分析工具输出,提取关键信息,并判断是否需要继续检索、回溯或直接输出最终答案。
    • 工作记忆(Working Memory):全程存储工具调用结果和关键信息,为决策提供上下文支持。
  3. 工具集:涵盖计算机视觉工具(目标检测、OCR、图像描述、VQA模型
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值