Learning a Visually Grounded Memory Assistang阅读笔记

初篱

已于 2023-03-29 16:16:37 修改

阅读量113

点赞数 1

文章标签：人工智能

于 2023-03-29 16:13:26 首次发布

本文链接：https://blog.csdn.net/qq_44100524/article/details/129831255

版权

概要：文章提出了“视觉基础记忆辅助数据集” ，可以用来检查人们如何在获得正确答案的时间成本与获得错误答案的风险之间进行权衡(因此，无法获得金钱奖励)。这可以提供一个丰富的途径来深入了解人们如何评估与获得正确答案、金钱和风险相关的旅行时间(即在未经确认的情况下猜测答案时出错的概率)。

分类：数据增强。

想法：可以用该数据集来进行人工辅助的视觉语言导航，或者在简单的VLN基础上加上视觉探索问答的功能。

主要贡献：

（1）我们介绍了人类的记忆问答（MemQA）任务，该任务测试人类的视觉空间记忆。我们创建了视觉基础内存助手数据集，其中包含超过6k个预先形成MemQA任务的人类实例。据我们所知，这是关于人类视觉记忆辅助的最大数据集。

（2）我们对人类寻求帮助的条件进行深入分析。

（3）我们开发了基线模型，用于预测参与者是否会寻求帮助或自行导航，以及他们回答MemQA问题的准确性。

任务描述：

导航记忆问答（MemQA）在每次试验中，参与者会在室内3D模拟建筑的飞行，到达目标点后会被传送回起点，并被提出四个问题，问题涉及飞行过程中涉及到的物体、房间，包括对象的位置、颜色、数量和存在以及房间比较和对象比较这四个问题。参与者总共有2.5分钟的时间采取三种不同方法来回答所有问题：1）在没有任何形式导航的情况下立即回答；2）自己在环境中导航（可能是为了回到可以识别答案的位置）；3）请求帮助，这时助手会将他们送到可以识别答案的位置。

数据集：

使用Matterport3D网格和注释以编程方式生成问题（说明：Matterport3D作为数据集，这个数据集中含有来自90个building尺度室内场景的10.8k个RGB-D图像。对于每个场景，Matterport3D还包括一个纹理3D网格，该网格由40个对象和建筑构件语义类进行注释。为了配合下游VLN任务，在所有实验中，RGB、深度和语义图像均为360◦ 等矩形格式的全景图。），每个问题都表示为一个功能模板，如表1所示。每个模板都定义了可查询的房间或对象。为了获得更多样化和更具代表性的问题集，我们添加了存在性、计数和比较问题，这些问题提供了额外的数据，以确定人们对环境的不同特征进行编码和记忆的难度。在最初的问题生成后，我们在Matterport3D注释中发现了许多错误，为了消除错误的注释，进行了一项众包研究来验证注释的准确性。表1列出了原始生成的问题数量、验证研究过滤的问题数量和剩余的问题数量。这项研究的结果是对产生的20%的问题进行必要的过滤。

我们生成了飞越路径，以确保它们包含了用最小距离标准回答问题所需的视觉信息。在过滤和生成问题后生成飞越路径。为了生成每个飞越，我们首先随机抽取了4个关于同一环境中不同物体的问题，而不进行替换。然后我们计算通过访问每个所需位置的环境的最短路径。一个短的随机轨迹被添加到路径的开始和结束。为了保持一致性，45秒以内或75秒以上的飞行时间被丢弃。

我们的数据集可以在找出正确答案所需的时间/精力与冒险猜测以节省时间之间进行权衡。

原文地址：[2210.03787] Learning a Visually Grounded Memory Assistant (arxiv.org)

初篱

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
2
评论
Learning a Visually Grounded Memory Assistang阅读笔记

基于Matterport3D，提出了“视觉基础记忆辅助数据集” ，可以用来检查人们如何在获得正确答案的时间成本与获得错误答案的风险之间进行权衡(因此，无法获得金钱奖励)。这可以提供一个丰富的途径来深入了解人们如何评估与获得正确答案、金钱和风险相关的旅行时间(即在未经确认的情况下猜测答案时出错的概率)。
复制链接

扫一扫