【VideoQA最新文献阅读】Open-Ended Multi-Modal Relational Reason for Video Question Answering

最新推荐文章于 2022-06-23 11:38:01 发布

Abby-Shen

最新推荐文章于 2022-06-23 11:38:01 发布

阅读量1.5k

点赞数 2

分类专栏： VQA 文章标签： vqa 计算机视觉深度学习

本文链接：https://blog.csdn.net/m0_46413065/article/details/113811136

版权

VQA 专栏收录该内容

11 篇文章 2 订阅

订阅专栏

本文探讨了机器人代理在帮助视障人士方面的潜力，尤其是通过视频问答技术提供语言交互。研究开发了一种机器人代理，能分析环境并回答问题。文章分析了人机交互中的挑战，如理解用户问题、反馈方式、声音干扰和信任建立。实验比较了不同模型在视频问答任务中的性能，并强调了信任对交互质量的影响。未来工作将涉及在更复杂场景中提升机器人代理的能力。

摘要由CSDN通过智能技术生成

Open-Ended Multi-Modal Relational Reason for Video Question Answering

Abstract

视觉障碍者不仅在引导和检索对象等基础性任务上迫切需要帮助，而且在描绘新环境等先进性任务上也迫切需要帮助。比起导盲犬，它们可能更需要能够提供语言交互的设备。在此基础上，我们将研究机器人代理与视障人之间的交互。在我们的研究中，我们将开发一个机器人代理，它将能够分析测试环境，并回答参与者的问题。在本文中，我们将讨论在人机交互中出现的问题，并找出相关的因素。

Index Terms

HRI, Video Question Answering, VQA, NLP

introduction

随着机器人技术的发展，人们希望机器人能够处理更多的日常生活任务。以人口老龄化的日本为例，机器人是用来照顾老年人的。同样的需求也在视觉障碍人群中得到了推动。对他们来说，传统的解决方法可能是导盲犬。然而，使用导盲犬有几个缺点。作为一种动物，导盲犬有多种性情和个性。有时他们可能会做出不规范的行为，失去控制。通常，导盲犬需要较长时间的训练。更重要的是，正如大家现在所接受的，狗不会说人类的语言。其他人可能认为狗可以通过吠叫与人交流。然而，对于这些人来说，他们不得不承认狗叫声所传递的信息远远少于直接的语言表达。因此，我们认为处理视频的机器人代理可以通过交流提供更有效的互动。这种机器人代理一旦应用，将能够改善视障人士的生活。在我们的实验中，机器人代理将保持与人类用户相同的视角。机器人代理将积极地探索周围的环境。例如，一位盲人用户去了一家新开的商场，想买衣服。机器人代理可以做几件事来帮助这个构建用户。首先，它可以询问用户想买什么类型的衣服。在过滤掉几个候选选项后，机器人可以引导用户找到每一个选项。然后，它可以告诉用户衣服的形状、颜色和尺寸。它还可以扫描每个商店，让用户知道商店里有多少人，这样用户就可以避开拥挤的商店。在本文中，我们将研究四个问题。首先，代理如何让盲人用户了解环境。一旦机器人代理扫描环境和处理拍摄的视频，代理只生成一组结果，其中可能包括位置、颜色、形状和协调。对于盲人来说，只有通过与agent的沟通，他们才能在脑海中描绘环境，这是我们要研究的问题。第二，agent是否理解盲人用户的问题并提供适当的反馈?用户可能会问一些与当前环境无关的问题。例如，如果在家里，用户会询问机器人代理是否可以找到医生。在这个例子中，“医生”的概念与家里的任何物体都没有联系。来自机器人代理的适当反馈可能是拨打911电话，或请求他人的帮助。一般来说，类似的场景将在我们的实验中研究。第三，人们对声音反馈的感觉。在一个不存在噪声因素的理想环境中，用户可以听到机器人代理的反馈。然而，这样的环境在现实世界中相对少见。我们想知道盲人用户和机器人代理之间的交互是否严重中断。第四，人们对这种互动是否感到舒服，盲人用户和机器人代理之间有多少信任。与机器人代理相比，人们可能更容易与导盲犬建立信任。潜在的原因可能来自文化，传统(人类和狗在历史上的长期关系)，或者生物学(有机智能动物更可能信任彼此，而不是它们对酷酷的机器)。在其他一些情况下，人们倾向于不信任[1]机器人。对机器人的不信任和过度信任都不会对人机交互产生负面影响。

Related Work

Pre-training for Natural Language Processing (NLP)

有趣的是，自然语言网络有一些训练前的模型。在以往的研究中，NS-VQA[2]等模型采用序列到序列的方法进行模型构建。然而，在日常对话中，这种问答方式也可以运用大量的条件，如对话。在我们的研究工作中，我们的目标是建立一个能够处理语言语境和理解语法的视觉障碍患者急需使用的模型。在对话对话中，很有可能出现句子后面没有符号和[3]句中的多义条件的问题。已有关于改进[4]、[5]嵌入的研究。随着[6]变换的出现，自然语言处理领域取得了新的进展，特别是对句子中的多义词的处理。近年来，出现了许多新的预训练模型，如BERT[7]、XLNet[8]、gpt-2[9]和ViLBERT[10]等，用于判断问题并根据模型结果给出答案。其中，BERT可能是最受欢迎的，因为它的简单和优越的性能。

Multi-Model for Visual Question Answering(VQA)

在之前的模型中，有许多最先进的ap方法正在研究视觉问答，如BUTD[11]、MFB[12]、BAN[13]、MMNasNet[14]等。然而，我们的研究不仅在计算源的使用上存在局限性，而且在视觉和语言任务的VQA训练数据的原始方法上也存在局限性。它会失去机器的很多资源。我们提出了一个框架来利用这些软件程序和场景图。在神经符号VQA[2]的里程碑上，开发了Stack-NMN[15]、LXMERT[16]等在软件程序和场景图方面具有较高性能的模型。这些在软件程序和场景图中具有较高性能的框架为我们的建模提供了很多思路。

Visual Recognition

对于视频识别的工作，我们使用的数据库称为CATER.[17]。在CATER数据集中，由于格式是视频，使用mask-rnn[18]进行场景解析时，不能很大程度上检测出随着时间变化的物体的动作。随着3D-ConvNet[19]的思想，视频动作识别的里程碑I3D[20]出现在了研究领域。I3D在模型中使用了两流3D-ConvNet，其中一流是光流变化，另一流是图像变化。光流是运动场的关系。在I3D的基础上，我们用Resnet实现I(2+1)D，也称为R(2+1)D[21]。其中，有二维空间卷积和一维时间卷积。原始的空间和时间3D卷积模型(如I3D)与明确分解3D卷积的模型(如I(2+1)D)之间有很多优势。优点之一是在这两个操作之间增加了一个非线性校正;而另一个问题是，显式卷积比具有时空特征的原始三维卷积模型更容易优化。尽管R(2+1)D均匀地使用了单一类型的残差块，但它仍然导致了最先进的动作识别精度。
在这里插入图片描述

Model

在本节中，我们将讨论在我们的研究中设计的模型。用x表示输入的片段大小为3×F ×H×W。图1所示。其中e是RGB中颜色的编号，F是视频中帧的编号，H, W是帧的高和宽。我们首先将带有R(2+1)D模型的帧的视频放入，以检测物体的动作和运动。然后利用带有弱函数的VQA问题，利用改进的NLP算法进行视频问答。

A. Video Recognition

在这项工作中，我们考虑探测物体的动作和运动。在以往的研究中，有许多替代技术可以高精度地完成这一任务。同时，在现实生活中，有很多行为需要准确判断时间。在考虑时间时，我们总是考虑LSTM模型。但是LSTM在训练过程中缺乏物体随旋转而变化的经验，在某些特殊情况下可能会导致巨大的误差。随着I3D和I(2+1)D模型的里程碑，我们可以利用这两个模型来检测从1到k的帧和从1到k的光流。然而，正如我们在相关工作中提到的，I(2+1)D模型很容易优化。这将帮助我们以近似高的精度减少模型中的资源的可能性。在我们的网络中，我们实现了基于两个卷积层的空间和一个卷积层的时间网络的模型。因此，我们可以从Mi3D卷积层设计一个尺寸为Ni−1 × t × d × d的网络，二维空间层的尺寸为Ni−1 1d d，时间层的尺寸为Mi t11 1。这如图1所示。在二维空间卷积层中，模型首先使用ResNet检测包围框，如图2所示。从中间帧检测每帧中的每个对象。为了提高目标检测的准确性，我们在检测工作中采用了地面真包围框。对于光流检测，我们使用了二维空间层和一维时间层之间的连接模型，该模型具有一个ReLU。使用最优流程，我们可以检测到一些由对象的移动组成的动作，如包含、平移和缩放。同样，我们可以通过阴影值的变化来判断物体是否旋转，如图2所示。模型的输出将给出随着时间变化的视频幻灯片中的对象的位置和动作
在这里插入图片描述

Visual Question Answering (VQA) with Soft Function

普通视觉问答(VQA)模型，如MFB[12]，在从图像中检测答案时，在场景部分重复训练模型。在我们的研究中，工作应该用于机器人，有有限的资源可以使用。为了减少VQA的消耗，我们计划用软件程序和serene graph制作一个可以解决问题的程序，以端到端的方式训练问题的答案。目前研究的主要模型有NS-VQA[2]、Stack-NMN[15]和LXMERT[16]。所有这些工作都大大减少了记忆的使用和训练时间的速度。基于堆栈- NMN建立了具有软功能的VQA模型。在VQA的软程序问题中具有较高的性能。

C. Natural Language Processing (NLP) In Pre-training Model

在考虑NLP模型对VQA问题进行推理时，在sequence to sequence中使用了NS-VQA[2]中的原始方法。它是一个基本的LSTM模型，只考虑问题的一个方向。然而，在现实生活中，人们的对话可以被视为对话。对话中的人物语法不如书面对话中的人物。有时在我们的谈话中也存在着大量的俚语，这些俚语不能用书面文字来表达。此外，还存在一些多义词的条件。在图3中。在我们的算法中，模型时间图和一些能够处理这些条件的模型是比较重要的。随着ELMO[5]和转换[6]的里程碑，开始存在许多需要进行微调的模型。这些微调模型使我们的算法在不改变输入参数的情况下，能够快速推理出VQA中的问题。这会减少很多资源。在我们的研究中，我们发现BERT[7]和XLNet[7]组合在VQA问题的推理方面表现最好。伯特为每个单词给出了句子的上下文关系，但它缺乏随时间变化而变化的记忆。XLNet同时考虑了BERT和LSTM的优点，使模型能够以更好的性能处理多词问题。然而，它需要比BERT更大的资源。同时，某些特殊条件也不能像伯特函数那样工作。因此，在我们的研究中，我们将分别使用BERT和XLNet对VQA问题进行推理，并将两种模型的推理结果进行比较，得到一个置信度较高的结果。
在这里插入图片描述

Experiment

在这一节中，我们将对假设进行说明和解释，这些假设与绪论部分的四个问题相匹配。然后，我们将解释我们如何建立实验来验证假设。

A. Hypothesis

假设1。将地点、颜色、形状等单字组合在一起，可以让人建立对环境的基本认识。
假设2。请求应该简短明了，避免赘述。这样的指令，更容易被机器人代理理解。
假设3。友好、礼貌、真诚的反馈更容易让用户接受，让用户感觉更舒服。
假设4。对机器人agent具有合理的信任水平，可以促进盲人用户与机器人agent之间的交互。

B. Participants

参与者是200名佐治亚理工学院的学生。他们都是CS专业的学生，对HRI相关知识和VQA技术都有很好的了解。200名参与者被分成4组。每组都将用来验证一个假设。这样，我们希望每个参与者在实验过程中都有足够的耐心和新鲜感，这样个人的情绪(如沉闷、疲劳)就不会影响我们的实验结果。在实验之前，所有的参与者都将有一个合理的时间来熟悉他们的任务和设备。在实验过程中，所有的参与者都将被蒙住眼睛。他们只能通过说和听与实验设备进行交流。

C. Robot Agent

在我们的实验中，我们在计算机上设置了核心功能，包括处理语音并将音频剪辑转换成英语，一个VQA程序来分析视频和问题，一个声音来发出VQA程序的结果。测试计算机将始终保持与参与者相同的视角，以获得与参与者应该获得的相同的视频。

D. Four Experiments

H1实验:
在这个实验中，参与者需要通过向机器人agent提问来了解环境。我们使用包含不同对象的视频剪辑。图2展示了一个示例。视频剪辑(测试集)有几个优点。它显示了不同的形状和颜色。物体的位置一直在变化。相对位置可以用简单的词来表达，比如“立方体附近，球体后面”。“它简化了现实世界，而不会丢失关键信息(位置、颜色、形状、动作)。对于视频中物体的动作，我们会根据其他关键信息的变化来判断。参与者需要找出问题的答案:每种形状有多少个物体，它们的颜色是什么，以及它们的位置和动作。他们最多有13分钟来完成任务。然后，他们会被要求根据他们得到的信息画出一幅画。
每一个人类的问题和机器人的回答都将被记录在电脑日志中。

H2实验:
我们分析先前实验中的日志文件。我们对问题进行了分类:1。正确答案后面的问题。2. 跟着错误答案而来的问题。例如，正确答案应该是“四个立方体”。但实际的答案是“一个立方体”。无效答案后面的问题。例如，正确的/可以接受的答案是“一个球体”。但实际答案是“一个三角形”。对于这组参与者，只会问一些简单明了的问题，比如“多少个球体?”另一个只会问一些复杂的问题，比如“你能告诉我周围的环境吗?里面有多少物体看起来像一个循环?”“同样，会有日志，我们会分析准确性。

H3实验:
在这个实验中，参与者可以自由提问。他们的目标是解决环境问题。两个参与者的机器人代理是不同的。一个机器人代理被编程为表现良好，另一个则相反。前机器人将以友好的谈话开始，如“有多少我帮助你”或“有什么我可以为你做。如果这个机器人不能处理这个问题，它可能会回答“对不起，这个小机器人找不到答案。”你介意用一种不同的、更简单的方式来回答你的问题吗?不同的是，后者的机器人只回答“一个”或“没有”。在提问后，参与者需要画出图画。

H4实验:
在两百名参与者中，他们将接受一项调查，其中包括关于机器人信任的问题。我们将对调查进行评估，找出最信任机器人的参与者和最不信任机器人的参与者。他们会问“友好的”机器人代理并画出图片。
在这里插入图片描述

E. Method of evaluation

我们将对精度进行分析，精度可以用：
在这里插入图片描述
对于每种类型的物体(立方体、球体、圆锥)，它们都有不同的量。我们将随机选择视频从迎合数据集，并问他们问关于关键信息(位置，颜色，形状)的问题。参与者需要把他们引出来。对于每一种类型，我们将判断答案是否与真理相同，并计算准确率分数。

最后一个特征是评价相对位置。我们会让参与者问几个关于每个物体在五个随机时间点的位置的问题，我们会要求用户画出每个时间点物体的位置关系。同样，我们会判断答案是否与真理相同，并计算准确率分数。

Result And Discussion

实验结束后，我们让参与者画了两百张照片。这些图片代表了参与者可以通过与机器人代理的交流在他们的脑海中建立。假设人们有相对平等的认知水平，我们认为视障人士应该能够构建一些类似的图像。同时，我们用柱状图来表示实验3和实验4的调查结果。

A. Performance of Video Question Answering Model

在这里插入图片描述

在实验1和实验2中，我们将我们的模型与其他几种模型(表1)的分类精度进行了比较。对于在CATER和Chadha等人[26]中使用的方法，他们使用注意算法来确保模型对任务具有竞争性。然而，它们的表现没有我们的模型那么好。所有的模型及其变量都对每个参与者进行了一次实验训练，得出了结果的平均值。我们发现之前的算法表现不如我们的模型。经测量，我们的模型在物体数量上比Chadha等人的方法好3.09%，在物体形状上比Chadha等人的方法好0.67%，在物体数量上比Yang等人的方法好4.19%。在此基础上的改进对其他模型具有重要意义。但是，在视频答疑的某些功能上的表现仍然不如其他型号。例如，我们的模型对物体颜色的判断就比Chadha等人的[26]差。精度较低的原因在于我们的模型更多地关注物体运动的关系。在我们的模型中，我们使用光流来测量物体的动作。当我们使用光流时，我们没有使用RGB3这样做，它会使我们的模型在某些情况下失去颜色值，在模型性能上造成很高的错误率。

B. Trust and interactivity of HRI

我们使用调查来计算每个参与者的信任分数。信任分数越低，参与者对机器人的信任度就越低。1 ~ +1之间的信任是一个合理的分数范围，即参与者既不过度信任也不不足信任。对于那些很少信任机器人的参与者来说，他们与机器人进行有效互动的可能性更小。例如，一个参与者要求机器人识别物体的位置，并依赖机器人的引导，他不信任机器人。在这种情况下,这个参与者花了更长的时间来描绘周围的环境或到达他/她想去的地方。我们必须问，为什么信任不足会导致更糟糕的互动。在理想情况下，收到机器人反馈的参与者应该根据收到的信息进行大胆的尝试。但同时，参与者也要思考反馈是否在合理的范围内。对于不信任机器人的参与者来说，他们可能会就单一情况问太多类似的问题。例如，任务是探索视频中三角形的数量。正常的参与者可以问两个问题:有多少个三角形和多少个锥，以确定三角形的数量。对于不被信任的参与者，他们会问10多个问题来确认答案。我们通过两个因素来衡量交互性:探索的正确性和时间。对于图6和图7，它们以图图和直方图的形式表示交互和信任结果。以图6为例，上面的图表示交互性，下面的图表示可信度。在x轴，我们从1到10，这是我们用来评估参与者的分数。在y轴上，值表示调查中出现的得分的可能性。例如，在图6(上图)中，有20%的参与者在交互性评估中得到6分。从图6和图7可以看出，信任度与交互性之间存在正相关关系。这样，我们将200名参与者的实验结果投影到图5中。
在这里插入图片描述

在这里插入图片描述

Conclusion And Future Work

我们开发了一个与盲人用户进行高级交互的新模型。我们的研究主要集中在交互改进上。该模型使用了VQA技术，在不同场景下具有不同的性能。通过这种方式，前两个假设被设计来验证哪种设置可以产生最佳的交互结果。同时，我们在视频问答区域将我们的模型与其他模型进行比较。实验表明，该模型在很多方面都优于其他模型。我们还研究了信任的作用，并观察信任是如何影响互动的。我们研究的核心思想是识别与我们的机器人代理和盲人互动呈正相关的特征。我们目前的实验使用的是“对象视频”。在未来的工作中，我们将在更加复杂和真实的情况下发挥我们的机器人代理。我们还可以在机器人代理身上安装机械手臂，这样它就能执行动作，而不仅仅是语言交流。在这种情况下，新的机器人代理与盲人之间的互动将会不同于当前的互动。我们将检验这种新型机器人代理能力的极限，看看是否有我们可以做的潜在改进。此外，在未来，我们计划使用一种不同的注意力来构建我们的模型，比如分级注意力[27]。我们将用RGB3来判断我们的光流，以确保模型在颜色检测方面变得更加敏感。