动机
-
视频问答(QA)的数据集通常假设答案是一个基于简洁事实的简短文本。然而,对视频内容的非事实性QA研究相对较少。
视频问答(QA)是NLP和计算机视觉领域的重要问题之一。最近,随着TVQA、TGIF-QA和MovieQA等各种数据集的创建,基于视频的QA技术得到了快速发展。然而,这些数据集通常假设答案是一个基于简洁事实的简短文本(例如,问题“鸟的颜色是什么?”可以用“白色”来回答),而用户可能希望对诸如“how”和“what“的问题提供更长的非事实性答案。然而,对视频内容的非事实性QA研究相对较少。
-
现有的工作集中于视频内容的视觉或文本模态,以找到问题的匹配答案。然而,这两种方法对于作者的长度变化的非事实性答案的问题设置来说都不够灵活的。
对于非事实性问题,现有的研究主要集中在文档检索或视频检索。给定一个问题,他们的目标是将相关的文档或视频的列表排序作为结果。但是,返回整个文档过于粗粒的,需要用户阅读整个文档。相反,WikiPassageQA任务在文本中使用预分段段落,以返回一个更细粒度的答案作为得分最高的段落。但是,这种方法不能适用于文档中没有如段落这样的明确语义分段的视频。受启发,作者的目标是为非事实问题提取一个细粒度的答案,特别是对于教学视频的“how-to”的问题。图2说明了一个例子,当用户提出一个问题“如何更换Galaxy的电池?”,所需答案被表示为一个从00:41至02:50秒的细粒度span。对于没有预分割的视频,生成span候选的一个简单解决方案是“拆分后排名”(“split-then-rank”),即将视频拆分为固定大小的剪辑,然后按其与问题的相关性对每个剪辑进行排序。然而,这一解决方案有两个挑战没有得到解决。首先,它不能支持不同的答案长度,这在非事实性QA中是常见的,在作者的数据集中也是如此。在图1(a)中,作者可以观察到答案长度在1到30个句子范围内的变化。然后,在对分割后的候选进行排序时,一个简短答案的精确评分模型在长答案是不准确的(反之亦然)。图1(b)对比了两种SOTA算法的相关性评分准确性。
方法
简介
为了应对这些挑战,作者提出了一种两阶段的方法,即分段-排序,使用一种从粗到细的架构。
第一步是多模态分段器,以输出不同长度的span候选。作者的目标是预测依赖于给定问题/视频的语义边界,同时考虑transcripts和视频中的视觉内容。为了说明作者为什么需要考虑多模态,作者再次回顾图2:在本例中,考虑从检测器中提取的视觉目标phone和Finger是至关重要的,以排除前两个片段中未显示相关视觉内容的问候部分。Segmenter结合排序器和视觉特征,提出了几个开头和结尾片段作为语义边界,然后将top-k span识别以传递到下一阶段。
第二步是设计长度自适应Ranker,通过对从Segmenter中识别出的不同大小的答案候选进行重新排序来确保精度。就像上述提到的,在作者的设置中使用变化的长度没有单一的赢家。更正式地说,根据2019年Guo等人的说法,现有工作被分类为基于表示和基于交互的方法,具有这样的互补强度,在图1(b)中分别显示为Algo1和2。作者的贡献,是采用长度自适应gating,适当地结合基于表示和交互的方法,以覆盖不同长度的场景。
任务描述
受抽取式问答任务的启发,预测一个连续的单词span,作者将任务抽象为预测连续的句子span,以支持多句子的回答。作者将剪辑重新定义为视频的一个句子单元,而作者的问题是预测一个连续的剪辑span。
在作者的任务中,给定一个问题,目标是在一个视频和transcripts对上找到一个连续的答案span。设一个给定问题为Q={w1Q, w2Q, … ,wnQ}。一个给定视频为T,具有m个句子的transcript为S={S1, S2, … ,Sm}。第k个剪辑Tk包含句子Sk={w1Sk, … ,wnSk}和采样图像帧Fk={v1Fk, … ,vlFk}。然后,给定一个视频T和问题Q对,作者的任务的目标是估计一个连续的答案span A,即A=Ti,Ti+1, … ,Tj},其中AT。对于任务评估&