Are we asking the right questions in MovieQA?心得体会

最新推荐文章于 2024-08-09 21:29:32 发布

untitled713

最新推荐文章于 2024-08-09 21:29:32 发布

阅读量288

点赞数

文章标签：深度学习 vqa

本文链接：https://blog.csdn.net/untitled_/article/details/104045356

版权

这篇文章在先前MovieQA的基础上提出了一种更加简单高效的模型，即在不使用任何视频或字幕上下文的情况下通过MovieQA数据集的语言偏见（language bias）来直接回答问题。
文章链接：Are we asking the right questions in MovieQA?
代码链接：MovieQAWithoutMovies

在这里插入图片描述
MovieQA任务是：给定问题和多个答案选择，使用相应视频和字幕中提供的上下文来找到正确的答案。先前的作品使用深层网络来整合视频和字幕中的信息来完成此任务。本文展示了一个更简单的模型，可在不使用任何视频或字幕上下文的情况下实现最先进的性能。文中的模型使用了在Wikipedia电影情节（电影摘要）上以无监督方式训练的词嵌入，并且仅通过查看问题和选择就能够回答数据集中大约一半的问题。
一、文章引入
联合视觉（joint vision）和语言任务（如VQA）之所以令人着迷，是因为它们探索了高级理解，但是与此同时，它们更容易出现语言偏见（language biases）。在本文中，作者探索了MovieQA数据集中的偏见，并提出了一个可以利用偏见的简单模型。文章发现通过使用经过适当训练的词嵌入，仅通过查看问题和答案即可回答大约一半的QA问题，而完全忽略视频剪辑、字幕和电影脚本中的叙述语境。
MovieQA数据集通过收集简短的电影剪辑以及字幕和维基百科，并在其中定义多项选择问题，将VQA原理扩展到了视频。根据使用的信息，它有5个用于QA任务的类别：
1）电影剪辑+字幕
2）电影字幕
3）电影脚本
4）DVS（描述性视频服务）
5）Wikipedia电影情节（维基百科）。
第一个类别基于视觉和文本数据的组合，而其余4个纯粹是基于文本的任务。尽管在此方向上已进行了大量工作，但大多数方法并未充分利用视觉功能，而是严重依赖基于语言的提示，例如字幕或维基百科。这就提出了一个问题：我们的视频模型不具备真正理解视频的能力，还是MovieQA任务不公平地偏向于实际上不需要视觉信息？
WikiWord embeddings：作者提出了一种非常简单的方法，该方法可提取问题和每个答案的平均池化词嵌入，并选出相关性最佳的答案。在无监督的Wikipedia情节上训练文中的单词嵌入（称为WikiWord embedding），以捕获电影剧情的叙述结构。
The role of plot：值得注意的是，本文模型不能赢得的一个类别是情节提要（wiki-plots），通过查看维基百科上的电影情节来解释问题和答案，当前的最新水平很高（85％）。这个类别提供了监督学习的 {(question,answer,plot)_i}元组的对齐训练示例，可以通过在这种对齐数据上训练的强大语言模型加以利用。相反，本文从未对齐的电影情节{plot_i}中以无监督的方式学习嵌入。我们的结果表明，从未对齐的电影情节中无监督地学习单词嵌入，仍然可以捕捉到有关电影的大量叙事结构。
Source of bias：语言偏见的来源可以通过生成QAs的过程来解释：Amazon Turkers通过阅读电影情节而不是看电影来生成QAs。电影剪辑随后以编程方式与电影情节线和问题对齐。此外，作者发现，对于许多QA，正确答案中包含了相关电影情节中的单词和角色，而错误答案中并不包含。通过简单地查看问题和答案，这可能更容易找出正确的答案。
二、WikiWord embeddings
Classic formulations: 典型的QA任务可以形式化为三部分，包括参考段落（需要理解），问题和可能的答案（在MovieQA中为5个选择）。当前的QA系统创建了一个评分功能，该功能根据问题和参考段落对所有待选答案进行迭代，并返回得分最高的答案。
Default word2vec: MovieQA基准测试中提供的基本Visual QA框架是本文提出的解决方案的基础。特别相关的是默认的word2vec，它在1400个Wikipedia电影剧情上进行了训练，包括训练集和测试集中的电影以及MovieQA以外的电影。重要的是，单词嵌入（Word embedding）是从电影情节中以无监督方式学习的，而无需查看相应的问题和真实的答案。
WikiWord embedding model: 本文的关键修改是仅在MovieQA中存在的电影上训练word2vec嵌入（训练集和测试集），这是用于训练默认word2vec嵌入的数据的严格子集。我们称其为embedding WikiWord。如下图所示，该模型仅使用问题和答案，而忽略了任何参考文章，字幕或视频。具体来说，作者通过平均池化WikiWord嵌入来计算每个问题和答案的句子级嵌入。然后，选择与问题具有最高（加权）相似性的答案。请注意，线性加权是模型中唯一一个针对问题答案对进行训练的组成部分。本文还提供了未进行任何线性调整，没有任何问题答案的监督对其进行训练了的模型变体的实验结果。
在这里插入图片描述

WikiWord嵌入模型 它以输入问题和5个答案作为输入。对于问题和答案中的每个单词，都使用word2vec计算300D单词嵌入。这个word2vec在电影情节上经过预训练，其权重保持固定。平均池化单词嵌入以获得句子级别的向量，然后通过线性层（初始化为单位矩阵）获得另一个300D向量，然后对其进行L2归一化。将针对问题的300D表示形式和5个答案选项计算出点积相似度，然后选择值最高的一个作为模型的预测答案选项。

三、实验部分

在这里插入图片描述

左：基于Google w2v的词嵌入的t-SNE可视化；右：基于本文的WikiWord嵌入w2v。图上的点来自6部不同电影的单词，来自同一部电影的单词具有相同的颜色。对于像Google w2v这样的通用词嵌入，来自不同电影的词都混杂在一起，因此它们失去了对该任务重要的电影语义。在WikiWords中，同一部电影中的单词会聚在一起，而不是其他电影中的单词。
在这里插入图片描述
在MovieQA排行榜上使用公开发布的代码“分层存储网络”在最佳模型上使用不同输入方式和不同单词嵌入的验证实验。使用字幕或视频不会提高准确性。通常，更好的词嵌入带来的好处使因输入模态而导致的性能差异相形见绌。
在这里插入图片描述

上表显示了不同单词嵌入的重要性。一般的词嵌入，像谷歌的(第二行)给出了很差的准确性。使用更好的单词嵌入(第5行)可以提供非常高的准确性，即使不训练QA only模型。当我们只使用val电影情节(第3行)时，我们获得了较好的val准确性，但同时得到了较差的train准确性。当我们使用来自train+val
movies(第5行)的情节时，可以获得最高的准确性。尽管对第一行和最后一行使用了相同的数据，但由于超参数略有不同，结果也有所不同。
四、Appendix
4.1 What does WikiWords embeddings learn?
在某种程度上，我们的简单QA模型和预先训练的word2vec模型是试图记住电影情节大纲中出现的邻近单词。由于AMT工作人员只通过查看电影情节概要来回答问题，所以它能够在一半的数据集中正确回答QAs。下图显示了我们使用“train+val”word2vec的简单模型的正确预测以及不正确的预测。它还突出了问题中的突出词语、正确答案和由AMT工作人员编写的QA的电影情节形式中的台词。在这里插入图片描述
带有“ train + val” word2vec的简单模型的正确预测，有偏差的QAs。正确答案以绿色突出显示。淡蓝色的单词是特定于电影的单词，在问题与电影情节中由Amazon Mechanical Turkers提出问题的那一行之间通用。带深蓝色下划线的词是电影的特定词，在正确答案和电影情节中之间通用。例如，对于第二列中的问题，该模型预测为A3，因为在电影情节中，“乒乓”（正确答案中的电影特定单词）是唯一出现在“中国队”（问题中的电影特定单词）附近的单词。对于错误的答案选项，其中的单词不会出现在电影情节中，所以这些选项在单词嵌入方面非常不同。因此，在不使用视频等其他任何信息的情况下，很容易通过QA问题的偏差找到正确的答案。

在这里插入图片描述

错误预测。这些QA偏向性较低。模型的预测为红色，正确的答案为绿色。例如，在第三个问题中，模型预测了A5。这是因为在A5中，选择答案中的“秋天”一词是该问题中唯一的特定词。因此，A5）在带有问题的词嵌入空间中将具有很高的点积相似性，因此模型预测其作为答案。

模型首先尝试选择答案中包含电影特定单词的数量最多的答案。发生这种情况是因为在这种情况下，问题的单词嵌入和所选的答案将非常接近。模型的另一个方面是选择电影特定单词出现在电影情节中与问题的电影特定单词相邻的位置（因为在word2vec空间中，附近的文本单词具有很高的点积相似度）答案。这确保了问题的单词嵌入和所选答案选项将具有非常高的相似性。

4.2 Towards an Unbiased Dataset:Easy-question Removal
本文很自然地生成了一个数据分区，这个分区不存在细微的语言偏差，并且有可能用于视频语言建模的进一步发展。作者认为QA可以由WikiWord嵌入模型正确回答QA的为biased QA’s，剩下的则为unbiased QA’s。为了确保从训练集中发现这些有偏见的问题时不会对数据过度拟合，使用未经训练的模型的预测。也就是说，使用我们预先训练好的word2vec的仅QA模型，不再使用基于问题的真实答案对它进行进一步的训练。根据表4，我们在训练集和验证集上的准确率达到了40％左右，移除这些QA。我们的假设是，这些问题确实是最简单且最具偏见的问题，基于视频的模型可以解决这些问题，而实际上并不需要视频的上下文。下表比较了使用原始数据集、偏见子集、无偏子集训练和测试仅QA模型时的性能。为了确保我们的无偏数据集在多个模型中具有竞争力，我们展示了仅QA模型和TVQA [10]数据集中提出的基准仅QA模型的性能。我们发现，对于这两个模型，无偏子集都比较困难，并且结果接近机会级准确性（20％）。

在这里插入图片描述

对于2个不同的仅QA模型，MovieQA数据集的不同划分的性能比较。第一行显示原始数据集。第二行显示了原始数据集的子集，该子集存在偏差，即我们的仅QA模型能够正确回答这些问题。第三行是仅我们的QA模型无法正确回答的子集，结果近似于机会水平的准确性。这些是unbiased QA’s，是最困难的划分，需要视频和字幕中的信息。

4.3 Performance of our model for different amount of movie plots used for training word2vec
在这里插入图片描述
添加其他plot会降低总体性能。现在，我们在验证集上针对用于训练word2vec的不同数量的电影情节明确地评估了模型的准确性。最左边的数据点（114个图）对应于word2vec，该word2vec用仅来自train + val集的电影情节来训练的，该图在WikiWord嵌入模型中使用。在从随机电影中添加其他电影情节之前，直到我们到达最右边的数据点为止，该数据点对应于MovieQA作者提供的word2vec，该数据对总共1364个电影情节进行了训练。该图表示添加用于训练word2vec的电影图会降低我们模型的准确性。

untitled713

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Are we asking the right questions in MovieQA?心得体会

这篇文章在先前MovieQA的基础上提出了一种更加简单高效的模型，即在不使用任何视频或字幕上下文的情况下通过MovieQA数据集的语言偏见（language bias）来直接回答问题。文章链接：Are we asking the right questions in MovieQA?一、文章引入联合视觉（joint vision）和语言任务（如VQA）之所以令人着迷，是因为它们探索了高级理...
复制链接

扫一扫