![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文阅读
文章平均质量分 91
hanranV
一分耕耘,一分收获~
展开
-
EUREKA: HUMAN-LEVEL REWARD DESIGN VIACODING LARGE LANGUAGE MODELS
大型语言模型(LLMs)在顺序决策任务中作为高级语义规划器表现出色。然而,利用它们来学习复杂的低级操控任务,例如灵巧的笔旋转,仍然是一个未解决的问题。我们弥补了这一基本差距,并提出了Eureka,这是一个由LLMs驱动的人类水平奖励设计算法。Eureka利用了最新LLMs的卓越能力,如零样本生成、代码编写和上下文中的改进,来执行奖励代码的进化优化。生成的奖励可以通过强化学习用于获取复杂技能。Eureka在没有任何特定任务提示或预定义奖励模板的情况下,生成了优于专家人工设计奖励的奖励函数。原创 2023-11-30 22:20:45 · 545 阅读 · 0 评论 -
Visual Cropping Improves Zero-Shot QuestionAnswering of Multimodal Large Language Models
多模态大型语言模型(LLMs)最近在视觉问答(VQA)方面取得了令人鼓舞的零射击准确率,这是影响各种下游应用和领域的基本任务。鉴于这些模型广泛使用的巨大潜力,重要的是调查它们在处理不同图像和问题属性方面的限制。在这项工作中,我们研究了多模态LLMs是否能够感知图像中的小细节以及大细节。具体而言,我们展示了它们在回答视觉问题的零射击准确率对问题的视觉主题大小非常敏感,随着大小的增加下降了高达(46%)。此外,我们通过观察到人类的视觉裁剪可以显著减轻它们对大小的敏感性,证明了这种影响是因果关系的。原创 2023-11-30 16:46:23 · 142 阅读 · 0 评论 -
Large Language Models areVisual Reasoning Coordinators
视觉推理需要多模态感知和对世界的常识性认知。最近,提出了多种视觉-语言模型(VLMs),在各个领域展现了出色的常识性推理能力。然而,如何利用这些互补的 VLMs 的集体力量很少被探索。现有的方法如集成,仍然难以实现这些模型之间所需的高阶通信聚合。在这项工作中,我们提出了 Cola,一种协调多个 VLMs 进行视觉推理的新范式。我们的关键洞察是,一个大型语言模型(LLM)可以通过促进利用它们不同且互补能力的自然语言通信,有效地协调多个 VLMs。原创 2023-11-30 14:59:51 · 639 阅读 · 0 评论 -
Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering
最近,视觉语言模型(VLMs)受到了显著的关注,在各种任务中展现了显著的进步,这些进步是通过利用大量的图像-文本配对数据实现的。然而,现有的 VLMs 通常将视觉问答(VQA)视为感知任务,采用黑盒模型处理,忽视了对同一视觉场景中不同问题之间关系的显式建模。此外,依赖于知识库(KBs)的现有 VQA 方法可能经常遇到来自有限数据的偏见,并在相关信息索引方面面临挑战。原创 2023-11-30 14:16:41 · 78 阅读 · 0 评论 -
Fully Authentic Visual Question Answering Dataset from Online Communities
视觉问答(VQA)是指关于图像的问题的回答。我们介绍了第一个VQA数据集,其中所有内容都来自真实用例。这个数据集源自在线问答社区论坛,我们称之为VQAonline。我们接着描述了我们的数据集以及它与其他八个VQA数据集的关系。观察到我们数据集中的答案往往更长(例如平均173个词),因此与标准VQA评估指标不兼容,我们接下来分析了六种流行的长文本评估指标中哪些与人类判断最吻合。然后,我们使用最适合的指标来评估六种最先进的视觉与语言基础模型在VQAonline上的表现,并揭示它们最大的挑战所在。原创 2023-11-29 14:31:22 · 98 阅读 · 0 评论 -
Grounding Answers for Visual Questions Asked by Visually Impaired People
这篇论文的标题是“Grounding Answers for Visual Questions Asked by Visually Impaired People”,作者是Chongyan Chen, Samreen Anjum, 和 Danna Gurari。论文的重点是在视觉问答(VQA)的领域内,引入了一个新的数据集:VizWiz-VQA-Grounding,这是第一个针对视障人士提出的视觉问题,并在视觉上定位答案的数据集。原创 2023-11-27 10:49:24 · 123 阅读 · 0 评论 -
Weakly Supervised Visual Question Answer Generation
这篇论文提出了一种弱监督的视觉问题答案生成方法,主要研究在对话智能助手和视觉问答(VQA)领域的应用。原创 2023-11-21 17:52:31 · 118 阅读 · 0 评论 -
LOIS: Looking Out of Instance Semanticsfor Visual Question Answering
视觉问答(VQA)作为一种需要在视觉和语言之间架起桥梁以正确推断答案的多模态任务,已被密集研究。最近的尝试开发了各种基于注意力的模块来解决VQA任务。然而,模型推理的性能在很大程度上受限于用于语义理解的视觉处理。大多数现有的检测方法依赖于边界框,这对VQA模型来说仍然是一个严峻的挑战,即理解图像中物体语义的因果关系并正确推断上下文信息。为此,我们在这项工作中提出了一个不使用边界框的更精细的模型框架,称为“实例外语义观察”(LOIS),以解决这一重要问题。LOIS能够提供更细粒度的特征描述来产生视觉事实。原创 2023-11-21 11:13:01 · 80 阅读 · 0 评论 -
OCID-Ref: A 3D Robotic Dataset with Embodied Language for Clutter Scene Grounding
为了在工作环境中有效地应用机器人并协助人类,开发和评估视觉接地 (VG) 如何影响被遮挡物体上的机器性能至关重要。然而,当前的 VG 工作仅限于工作环境,例如办公室和仓库,由于空间利用问题,对象通常被遮挡。在我们的工作中,我们提出了一个新颖的 OCID-Ref 数据集,该数据集具有一个引用表达式分割任务和被遮挡对象的引用表达式,为了解决具有挑战性的遮挡问题。 .........原创 2022-07-05 23:46:59 · 314 阅读 · 1 评论