＜＜视觉问答＞＞2021：Found a Reason for me? Weakly-supervised Grounded Visual Question Answering using Capsu

最新推荐文章于 2024-04-16 09:50:46 发布

金克丝、

最新推荐文章于 2024-04-16 09:50:46 发布

阅读量879

点赞数

分类专栏： Visual Question Answering 文章标签：计算机视觉人工智能深度学习

本文链接：https://blog.csdn.net/m0_56533033/article/details/122021211

版权

Visual Question Answering 专栏收录该内容

26 篇文章 12 订阅

订阅专栏

6.1. Comparison to baseline method

七、结论

摘要

grounding VQA任务是指VQA数据集不光有对问题的答案的标注，还有与问题直接相关的图像区域的标注，普通的数据集根据输入的图像和问题，得到预测的答案，预测值与真值做loss，带图像区域标注的VQA数据集，模型可以额外输出问题所注意到的预测的图像的区域，再与真值做loss，强迫模型去学习视觉问答时注意到与问题直接相关的图像区域，有效减缓shortcuts和language偏差。大多数VQA模型通常集中在通过使用预训练的faster r-cnn来解决这个任务。然而，预训练的faster r-cnn需要边界框标注来检测答案词汇表中的相关对象，这对于现实生活中的大规模应用不总是可行的。本文作者关注于更宽松的设置：通过单独训练VQA任务，以一种弱监督的方式为相关视觉区域对象实体做grounding。作者提出了一个可视化的胶囊模块，该模块具有基于查询的胶囊特征选择机制，允许模型基于问题中带有视觉信息的文本线索聚焦于相关图像区域。作者表明，将提出的胶囊模块集成到现有的VQA系统中，可显著提高其在弱监督grounding任务中的性能。

一、介绍

VQA通过图像和问题自动回答这个问题，而了解答案实际上是如何生成的，以便评估它是否基于正确的视觉区域，这也变得非常重要。如果问题是“车辆右边是否有黑马?”(见图1)，能够生成正确的答案很重要，因为网络在图像的正确位置找到了黑马(如果模型只注意到车辆，是无法正确回答问题的)，这允许判断整体正确性，而不仅仅是简单地仅根据文本确定答案。一些研究通过评估VQA的准确性以及答案所基于的grounding的准确性来解决这个问题。一个答案的grounding通常是通过考虑给定答案对应的图像的注意力图来评估是否关注了与正确答案相关的图像区域对象。

为了获得良好的grounding精度，这一领域的大多数方法依赖于从目标检测模型输入的特征映射，这些特征映射是用相关对象类别进行预训练的，这将范围限制为已知的对象类，如MS COCO，或要求注释相关对象的区域，并为它们预训练一个对象检测器。只有少数模型尝试解决这一问题，即训练VQA和grounding，在没有基于VQA任务单独预先训练的对象检测器的情况下，例如在GQA数据集中，仅使用空间(外观)特征，而不使用GQA数据集的视觉区域注释。本文研究的正是这种场景：基于VQA监督的弱监督视觉grounding。这里的想法是，这两项任务，即可视化的问题回答和正确的视觉grounding，都应该只从VQA任务中学习。因此，作者不使用任何对象级别的信息作为输入或监督。

在这种情况下，正确的grounding通常基于两个主要任务：找到相关的可视化实例对象，通常是建模这些实例之间的关系，如图1所示。为了解决这个问题，作者使用胶囊扩展当前的VQA框架。胶囊层能够通过路由协议学习对象实体的部分到全部的关系(胶囊网络是个啥，自行百度，在NLP，CV领域都有广泛的应用)。

当前基于胶囊的方法是在卷积特征上添加胶囊层，并使用对象类别监督来训练它们。即一个离散的和监督的mask操作，mask掉除ground-truth类外的所有胶囊，通常用于重建或分割与给定类对应的对象。在VQA grounding较弱的情况下，没有基于类或对象的监督，只给出了一个自然语言问题，因此，作者提出了一种基于输入问题选择胶囊的“soft mask”方法。例如，如果推理操作是find(“蓝色球体”)，则soft mask操作将mask掉不代表“蓝色球体”的所有胶囊，一旦不相关的胶囊被mask，相关的胶囊表示就被传递给后续的推理操作来完成VQA任务。

为了评估VQA的答案grounding能力，作者考虑两个数据集，GQA和CLEVR，为了对CLEVR的grounding精度进行评估，提出了一个新的CLEVR验证集，名为CLEVR Answers，为答案所基于的所有对象提供了各自的ground truth bounding box VQA对。因为我们对在训练期间使用任何对象注释不感兴趣，所以只需要在评估期间使用ground truth边界框，而不是在训练期间。因此，其思想是在标准CLEVR训练集上进行训练，并在训练过程中学习对象的视觉表示，而无需进一步注释。作者使用这个新的评估集来测试当前最先进的框架，MAC和NMN的grounding能力，尽管所有框架在VQA准确性方面表现相同，但它们的grounding能力存在重大差异，实验表明，使用胶囊soft query mask提高现有方法的grounding能力。

二、相关工作

VQA and visual grounding 最近的VQA方法依赖于对象级特征作为输入来提高VQA的准确性，参考BUTD，这些特征是从预先训练的目标检测器faster r-cnn中提取出来的。这使得VQA任务更容易，而且通常比外观特征执行得更好，但它也向pipeline添加了额外的预处理步骤(检测对象)。此外，由于预训练依赖于训练集中的对象类，它限制了将此类方法扩展到具有对象级注释的数据集，然而基本外观或基于网格的特征，例如，基于在ImageNet上预先训练的骨干，更容易生成，并且最近已经被证明可以工作(现在基于网格提取的网格特征也很不错了，不需要再预先训练目标检测器了-In Defense of Grid Features for Visual Question Answering)。所有这些方法通常只关注VQA任务的准确性，而不评估各自答案的grounding 。

一些VQA数据集现在提供grounding 标签，如GQA、VCR、VQS、CLEVRER和TVQA+，在这里，对象注释要么为视觉输入中的所有对象提供，要么仅为与问题和答案相关的对象提供，此外，GQA特别关注评估grounding 精度。因此，作者选择GQA来评估现实世界中弱监督grounding 条件下的胶囊增强系统，并根据overlap和iou(目标检测的评价指标)来计算答案的grounding，以测量这个grounding与答案的相关性有多精确。

这里介绍的CLEVR数据集，一个具有组合问题的视觉推理数据集，精度已经接近100%了(还有刷的必要吗，确定不是因为随机性？)，作者为所有问题类型提供bounding box标签，而不对与回答grounding相关的对象的数量施加任何约束，因此，clevr- answers数据集(作者提出的)使我们能够在没有任何约束的情况下评估当前最先进方法的grounding能力。

这里介绍胶囊网络，建议先去看看胶囊网络相关原理，主要是它的胶囊的含义，路由协议。

三、方法

给定一个输入图像i和一个问题q，目标是输出正确的答案a∈A，其中A是答案集合，并对模型预测这个答案所相关的对象进行bbbbing box预测，如图1。图2给出了该模型的结构。

这篇论文的所有贡献都在图2里，直接看图说话：最左边输入一张图片和一个问题，对于问题文本，用bilstm进行编码，输出d维的sentence embedding和word embedding，再拼接成2*d维的embedding输入到 Textual query generator模块，对于图片，用预训练好的image encoder编码成 H*W*d的image features，Textual query generator模块得到2*d的问题embedding，迭代这个embedding，从问题中不断地选择word，生成一个query与图像做注意力机制，这里迭代T次，即生成T个query，依次与图像做注意力。中左下一部分包括primary capsules EM路由算法 visual capsules，胶囊使用矩阵胶囊，包括一个逻辑单元，表示该胶囊是否激活，一个4*4的矩阵，表示该胶囊的属性，例如，位置、大小、方向等等，使用primary capsules对image features编码，对每一个像素都生成C1个4*4的矩阵和C1个激活单元，输出维度为H*W*C1*4*4和H*W*C1*1，再使用EM路由算法可以得到被激活的C2个高层及胶囊(C1只是表示每个像素用C1个胶囊表示，C2表示经过EM路由之后的每个像素有哪些胶囊被激活，没有激活的胶囊不参与后续的步骤)，输出维度为H*W*C2*4*4和H*W*C2*1，中右下是论文工作的关键，soft masking是基于问题的个体胶囊选择模块，通过mask掉与推理操作无关的胶囊来实现的，以前的方法是mask掉图像再重建图像，但需要ground truth来单一的mask掉ground truth类型的胶囊，由于作者这个模型是没有对象级别的groung truth的，所以需要模型能以端到端的方式学习mask掉哪些胶囊，qt是第t个时间步Textual query generator生成的问题embedding，经过全连接层输出维度C2的one-hot mask mt，mi=1其中i=argmax(mt)，该mask mt再应用到visual capsule层，Yc2是visual capsule的输出，与mt做点乘操作，因为mt是经过argmax的，所以这个操作是hard masking，但是作者发现hard masking导致大量胶囊没有被选中，丢失很多信息，因此提出了soft masking，如同右上，允许梯度流过所有的胶囊，而不是one-hot mask只流过一个胶囊，即对问题经过全连接层的输出做softmax操作，得到一组胶囊的激活概率值，此时不做argmax操作，将得到的胶囊激活概率值与visual capsules的输出做点乘，相对于给那些需要mask的胶囊乘以很小的数，而那些不需要mask的胶囊乘以很大的数，作者表明，在VQA系统中加入胶囊和soft masking可以显著提高其grounding能力，推理模块输出经过推理步骤T步聚合的特征，并发送到输出模块，即输出答案分数的分类器。在预测方面，由推理模块产生的空间注意力图，并对其进行后处理以获得目标检测grounding。

四、细节补充

作者将胶囊集成到两个基线VQA模型：NNM和MAC，对这些模型进行一些更改，具体参考原论文。

五、数据集

GQA和作者提出的CLEVR-Answers数据集。

CLEVR-Answers for Visual Grounding：在本文中，我们将CLEVR数据集扩展到CLEVR- answers，以便对答案进行可视化grounding。CLEVR数据集包括一个70K图像和大约700K问题-答案对的训练集，以及一个包含15K图像和大约150K问题-答案对的验证集。为了评估此任务的视觉grounding，我们使用[23](看原论文)提供的框架，并为答案生成带有bounding box标签的新问题-答案对，如图3所示。我们使用相同的训练和验证场景(图像)，并为每张图像生成10个新的QA对。为了获得每个答案的本地化标签，我们遵循两个步骤的过程：首先，我们获得导致预测答案的对象id集。CLEVR数据集中的每个问题都有一个问题图，这是一个逐步推理的布局，包含了解决问题所需的信息。我们从最后一个节点开始后向遍历问题图，并进行广度优先搜索(BFS)，直到遍历宽度级别为1的所有节点，这给了我们在最后的推理步骤中使用并生成答案的对象的列表。请注意，并不是每个答案都有grounding标签，例如，如果问题是“红色圆柱体后面有多少个蓝色橡胶块?”，然后答案是0，那么将没有包围框标签。其次，为了获得这组对象的bounding box，我们需要场景信息，对于每个问题及其对应的答案grounding对象，使用中心像素坐标信息(可用于每个场景对象)来定位场景中的每个对象，然后，基于物体的大小和形状，使用一些启发式方法得到每个感兴趣物体周围的bounding box的粗略估计。

这个两步过程产生901K的bounding box(约700K个QA对)用于训练集，193K个bounding box(约150K个QA对)用于验证集，即超过1M个bounding box标签。请注意，我们不会在训练中使用这些bounding box，但我们也会提供它们来刺激进一步的研究。为了验证超参数，原始的CLEVR验证集被用作测试集，在训练或验证过程中从未见过。

六、实验结果

Evaluation Metrics 为了评估正确答案的grounding，我们根据两个精度、召回率和f1分数来评估：(Overlap)和(IOU)。将目标检测的bounding box与grounding bounding box进行比较，以评估它们在(Overlap)和(IOU)方面与grounding bounding box标签的距离。当预测grounding bounding box与grounding bounding box标签的Overlap大于某一阈值时，则认为预测区域为真正例，检测阈值为0.5，基线系统使用一个多跳推理过程，为每个推理步骤生成注意图。由于推理过程被划分为子操作，导致每个操作产生单独的注意图，因此有可能在某些中间步骤而不一定在最后步骤中参与了正确答案的输出，我们考虑在推理过程中对F1评分的最佳注意图。

6.1. Comparison to baseline method

作者首先比较了提出的胶囊模块对两个基线系统MAC和SNMN的影响，对CLEVR-Answers数据集以及MAC对GQA的影响，如图1，2，3，使用SNMN和MAC作为基线，这些VQA系统以图像为grounding的整体特征作为输入，并通过可解释的注意力地图生成答案。Visual capsules模块在两层中胶囊的数量相同，即我们设置C1=C2=C在所有的实验(C = 无胶囊)。

作者首先在clevr-answer基准测试中评估这两个模型的性能，从预训练在ImageNet上预训练的ResNet-101主干的conv4层提取14x14x1024维特征，称为空间特征，通过MAC和SNMN转换层来生成14x14x512维度的特征，25个epoch，使用具有最佳VQA精度的模型进行grounding评估。原始mac baseline最佳VQA精度T=12，然而，我们使用四到六个推理步骤来获得可解释的注意力图，因此，我们对T=4、6和12(对于MAC， α设置为1)同时训练MAC和MAC-caps，表1显示了MAC基线在T=4时获得最佳IOU f1得分为19.73，而MAC- caps在T=6时获得最佳IOU f1得分为36.07(19.41%↑)，同时不影响VQA准确性。请注意，对于MAC-Caps，在T=12时达到了最好的Overlap f1分数，这是一个指标，表明产生了更大的注意图，而这些注意图没有通过Overlap测量进行评级。总的来说，我们看到，与MAC基线相比，所有被评估的MAC Caps评分都有显著和持续的增长。为了评估snmn和SNMN-Caps，我们用上面描述的输入特性训练这两个系统。

GQA数据集的实验结果如表2，3，不再赘述。

七、结论

这项工作为VQA任务的弱监督grounding提出了一种新方法，提出的基于胶囊的模块可以集成到当前的VQA系统中。为了允许结合胶囊与基于VQA的文本处理，我们提出了一个soft masking功能，进一步改善弱监督的答案grounding。通过在GQA和CLEVR-Answers两个具有挑战性的数据集上评估系统，我们展示了在VQA任务中学习弱监督grounding的建议的影响。