深度学习神经网络学习笔记-多模态方向-04-Video Description: A Survey of Methods, Datasets and Evaluation Metrics-CSDN博客

本文链接：https://blog.csdn.net/CSDNXXCQ/article/details/130708483

摘要

视频描述是描述给定视频内容的自然语言句子的自动生成。它在人机交互、帮助视障人士和视频字幕等方面都有应用。过去几年，由于深度学习在计算机视觉和自然语言处理方面取得了前所未有的成功，这一领域的研究激增。文献中已经提出了许多方法、数据集和评估指标，呼吁需要进行全面的调查，将研究工作集中在这个蓬勃发展的新方向上。本文通过调查最先进的方法来填补这一空白，重点关注深度学习模型;比较基准数据集的领域、类数和存储库大小;并确定各种评估指标(如SPICE、CIDEr、ROUGE、BLEU、METEOR和WMD)的优缺点。经典的视频描述方法将主语、宾语和动词检测与基于模板的语言模型结合起来生成句子。然而，大型数据集的发布表明，这些方法无法应对无约束开放域视频中的多样性。经典方法之后是一个非常短的统计方法时代，很快被深度学习所取代，深度学习是视频描述的最新技术。我们的调查显示，尽管发展速度很快，但由于以下原因，视频描述研究仍处于起步阶段。视频描述模型的分析是具有挑战性的，因为很难确定最终描述中视觉特征和采用的语言模型对准确性或错误的贡献。现有的数据集既没有包含足够的视觉多样性，也没有包含语言结构的复杂性。最后，当前的评估指标无法衡量机器生成的描述与人类生成的描述之间的一致性。我们通过列出有前途的未来研究方向来结束我们的调查。

介绍

用自然语言描述一个短视频对大多数人来说是一项微不足道的任务，但对机器来说是一项非常具有挑战性的任务。自动视频描述涉及到对许多实体的理解，并利用计算机视觉技术检测它们在视频中的出现情况。这些实体包括背景场景、人、物体、人的动作、人-物体交互、人-人交互、其他事件，以及事件发生的顺序。然后，所有这些信息都必须采用自然语言处理(NLP)技术，使用可理解且语法正确的文本进行表达。在过去的几年里，计算机视觉(CV)和自然语言处理(NLP)这两个传统上独立的领域已经联合起来，以解决理解和描述图像和视频的研究兴趣高涨的问题。专门出版的期刊关注视觉中的语言[9]，在NLP和CV会议上也定期举行联合这两个领域的研讨会[15]、[16]、[17]、[105]。自动视频描述在人机交互、自动视频字幕和视频监控等方面有很多应用。它可以通过生成对周围环境的语言描述来帮助视障人士。通过语音合成，或者自动生成并读出电影描述。目前，这些都是通过非常昂贵和耗时的人工过程来实现的。另一个应用是用自然语言描述手语视频。视频描述还可以为人类或服务机器人生成书面程序，将演示视频中的动作自动转换为简单的指令，例如组装家具、安装CD-ROM、煮咖啡或更换瘪胎[13]、[31]。视频描述技术的发展为许多应用领域带来了巨大的机遇。据设想，在不久的将来，我们将能够以与人类相同的方式与机器人进行交互[135]。如果视频描述被推进到能够理解现实世界中展开的事件并以口语呈现的阶段，服务机器人或智能手机应用程序将能够理解人类的行为和其他事件，以更有意义和连贯的方式与人类交谈。例如，他们可以回答用户关于他们把钱包放在哪里的问题，或者讨论他们应该为晚餐做什么。在工业环境中，它们可能会提醒工人日常操作中缺少的任何动作/程序。最近发布的对话数据集Talk The Walk[165]引入了另一个有趣的应用，在这个应用中，导游和游客之间的自然语言对话可以帮助游客通过感知、行动和交互建模到达地图上以前看不见的位置。

利用深度神经网络的最新发展——

在这里插入图片描述
图1:基于深度学习的视频字幕的基本框架。视觉模型将视频帧编码到向量空间中。语言模型接受视觉向量和词嵌入的输入，生成描述输入视觉内容的句子。

适用于NLP和CV，并且大型多模态数据集的可用性增加，从像素自动生成故事不再是科幻小说。这一不断增长的工作主体主要来自机器人社区，可以广泛地标记为从视觉到机器人感知的语言基础意义[137]。相关的研究领域包括，将单词与图片连接起来[25]、[26]、[43]，用自然语言句子叙述图像[50]、[90]、[96]，以及理解机器人应用的自然语言指令[65]、[106]、[152]。另一个密切相关的领域是视觉信息检索(VIR)，它采用视觉(图像、绘图或素描)、文本(标签、关键字或完整句子)或混合视觉和文本查询来执行基于内容的搜索。由于基准数据集MS COCO[99]和Flicker30k[180]的发布，图像字幕和检索[45]、[49]、[82]、[104]以及图像问答[18]、[103]、[127]、[184]方面的研究也变得非常活跃。

自动生成描述视频内容的自然语言句子有两个组成部分;理解视觉内容，并用语法正确的自然语言句子进行描述。图1展示了一个简单的基于深度学习的视频字幕框架。与图像字幕相比，视频描述的任务相对更具挑战性，因为并非视频中的所有对象都与描述相关，例如在观察到的活动中不发挥任何作用的检测对象[24]。此外，视频描述方法还必须捕捉相关物体的速度、方向，以及事件、动作和物体之间的因果关系。最后，视频中的事件可以有不同的长度，甚至可能导致事件的重叠[86]。例如见图2。钢琴独奏会的活动几乎贯穿了整个视频，然而，掌声是一个非常短暂的事件，只在最后发生。这个例子说明了三个相关研究领域之间的差异，即图像字幕、视频字幕和密集视频字幕。在这个例子中，图像字幕技术将事件识别为仅仅是鼓掌，而实际上它是由之前的事件钢琴演奏引起的掌声。

图3总结了视觉描述(Visual Description)下的相关研究。分类的依据是输入的是静止图像(Image Captioning)还是多帧短视频(Video Captioning)。不过，请注意

短视频字幕与视频自动转录非常不同，视频自动转录以音频和演讲为主要焦点。视频字幕主要关注视觉内容，而不是音频信号。特别是，视频描述扩展了视频字幕，目的是提供视频中视觉内容的更详细说明。
下面我们定义了本文中使用的一些术语。
•视觉描述(Visual Description):包含(见图3)自动生成单个或多个自然语言句子的统一概念，这些句子在静止图像或视频片段中传达信息。

•视频字幕:在短视频片段通常包含一个主要事件的前提下，通过自动生成的单个自然语言句子来传达视频片段的整体信息[21]，[45]，[55]，[117]，[160]，[178]。

•视频描述:自动生成多个自然语言句子，提供一个相对较长的视频片段的叙述。描述更加详细，可能以段落的形式出现。视频描述有时也被称为讲故事或段落生成[130]、[183]。

•密集视频字幕(Dense Video Captioning):使用每个事件一个自然语言句子来检测和传达视频中所有可能重叠的不同长度事件的信息。如图2所示，密集视频字幕在时间上定位事件[86]、[123]、[174]、[179]，并生成不一定连贯的句子。另一方面，视频描述使用多个连贯的句子对视频片段中的一个或多个事件进行更详细的描述，而无需对单个事件进行本地化。

视频字幕研究从经典的基于模板的方法开始，其中分别检测主语(S)，动词(V)和对象(O)，然后使用句子模板将其连接起来。这些方法被称为SVO-Triplets[24]，[84]。然而，深度学习的出现以及CV和NLP的巨大进步同样影响了视频字幕领域。因此，最新的方法遵循基于深度学习的架构[133]，[160]，用2D/3D-CNN编码视觉特征，并使用LSTM/GRU来学习序列。两种方法的输出要么是单个句子[116]、[176]，要么是每个视频的多个句子[24]、[41]、[78]、[130]、[145]、[183]

在这里插入图片描述
图2:图片字幕、视频字幕和密集视频字幕的区别说明。图像(视频帧)字幕用一句话描述每一帧。视频字幕用一句话描述完整的视频。在密集的视频字幕中，视频中的每个事件都被一个句子在时间上检测和描述，最终导致多个句子在时间上本地化，但不一定连贯。夹。早期对视频描述的研究主要集中在对象和活动词汇有限的特定领域短视频片段上[24]、[41]、[77]、[84]、[135]、[181]。对开放领域和相对较长的视频的描述仍然是一个挑战，因为它需要大量的词汇表和训练数据。遵循CNN-LSTM/GRU框架的方法主要区别于它们使用的不同类型的cnn和语言模型(vanilla RNN、LSTM和GRU)，以及它们如何将提取的视觉特征传递给语言模型(仅在第一个时间步或所有时间步)。后来的方法通过在标准编码器-解码器框架之上引入额外的变换而取得进展。这些转换包括注意机制[178]，其中模型学习要关注视频的哪个部分，序列学习[160]，用相应句子中的单词序列对视频帧序列进行建模，语义属性[55]，利用CNN特征之外的视觉语义[117]，以及使用组合文本对视觉内容进行联合建模[116]。最近，基于视频的视觉描述问题已经演变为密集的视频字幕和视频故事讲述。新的数据集也被引入，沿着这些方向发展。

在这里插入图片描述
图3:视觉内容描述的分类。本次调查只关注视频，不关注图像。
在性能比较方面，对视频描述系统的定量评价并不直截了当。目前，自动评估通常是使用机器翻译和图像字幕指标进行的，包括双语评估替补。

(BLEU)[118]，面向召回的标记评价替代(ROUGE)[98]，明确排序翻译评价度量(METEOR)[22]，基于共识的图像描述评价(CIDEr)[158]，以及最近提出的语义主张图像字幕评价(SPICE)[14]和Word Mover’s Distance (WMD)[92]度量。第5.1节介绍了这些度量。在这里，我们给出一个简短的概述来建立我们调查的动机。BLEU是一种基于精度的度量，它考虑了生成的和地面真值参考中n-grams的精确匹配。另一方面，METEOR首先通过比较精确标记、词根标记和释义来创建两个句子之间的对齐。它还考虑了使用WordNet同义词的语义相似匹配。ROUGE与BLEU类似，具有不同的基于n-grams的版本，并计算生成的句子和参考句子的召回率。CIDEr是一个基于人类共识的评价指标，它是专门为评估图像字幕方法而开发的，但也被用于视频描述任务。WMD利用词嵌入(语义上有意义的词向量表示)，并使用地球移动者的距离(EMD)比较两个文本。这个度量对句子中的词序和同义词变化相对不太敏感，而且和CIDEr和METEOR一样，它与人类的判断提供了高度的相关性。最后，SPICE是一个较新的度量标准，与之前报道的度量标准相比，它与人类对语义质量的判断更相关。它通过在依赖解析树中匹配两个句子的内容来比较它们的语义信息。这些指标对同一种方法捕获了非常不同的性能度量，并且与人类的判断并不完全一致。此外，由于这些指标的人工工程性质，当候选句子受到同义词、词序、长度和冗余的干扰时，它们的分数是不稳定的。因此，需要一种从训练数据中学习的评估指标，以便在描述具有不同内容的视频时与人类判断相协调地得分。

目前的文献缺乏一个全面、系统的调查，涵盖视频描述研究的不同方面，包括方法、数据集特征、评估措施、基准结果以及相关的竞赛和视频问答挑战。我们填补了这一空白，并对文献进行了全面的调查。我们首先在第1节中强调了视频描述的重要应用和主要趋势，然后将自动视频描述方法分为三组，并在第2节中对每组模型进行概述。在第3节中，我们详细介绍了用于基准测试的可用视频描述数据集。在第4节中，我们介绍了视频竞赛和挑战的细节。此外，我们回顾了第5节中用于定量分析生成描述的评估指标。在第6节中，通过上述方法获得的基准结果进行了比较和讨论。在第7节中，我们讨论了可能的未来方向，最后第8节总结了我们的调查并讨论了对研究结果的一些见解。

视频描述方法

视频描述文献可以分为三个主要阶段。经典方法阶段，开创性的视觉描述研究采用经典CV和NLP方法，首先检测视频中的实体(对象、动作、场景)，然后将其拟合到标准的句子模板中。统计方法阶段，采用统计方法处理相对较大的数据集。这个阶段持续的时间相对较短。最后是深度学习阶段，这是目前最先进的阶段，被认为有潜力解决开放域自动视频描述问题。下面，我们对每个类别中的方法进行了详细的综述。

经典方法

基于SVO(主语、宾语、动词)元组的方法是专门用于视频描述的首批成功方法之一。然而，很久以前就有研究工作将视觉内容描述成自然语言，尽管没有明确地用于字幕或描述。第一次尝试可以追溯到1991年的Koller等人[85]，他们开发了一个系统，能够使用自然语言动词来描述真实交通场景中车辆的运动特征。后来在1997年，Brand等人[31]将其称为“反好莱坞问题”(因为在好莱坞剧本(描述)被转换成视频中，这里的问题是相反的)，并将一系列动作描述为语义标签摘要，以便从教学视频中开发故事板。他们还开发了一个系统“视频记录器”(video gister)，该系统能够启发式地将视频解析为一系列关键动作，并生成描述视频中检测到的动作的脚本。他们还生成了描述检测到的因果事件的关键帧，并将一系列事件定义为语义表示，例如通过进入添加、运动、通过附加、移动、离开分离和删除。视频记录器仅限于一个人的手臂(演员)与非液体物体交互，并且只能理解五个动作(触摸、放置、获取、添加、移除)。

回到基于SVO元组的方法，它分两个阶段解决视频描述生成任务。第一阶段称为内容识别，重点关注视频片段中主要对象的视觉识别和分类。这些通常包括表演者或演员、动作和该动作的对象。第二阶段包括句子生成，将第一阶段识别的对象映射到主语、动词和宾语(因此称为SVO)，并为语法正确的句子填写手工制作的模板。这些模板是使用语法或基于规则的系统创建的，这些系统只在非常有限的环境中有效，例如，对象和动作数量有限的短剪辑或视频。

已经提出了许多方法来检测视频中的对象、人、动作和事件。下面我们总结了基于SVO元组的方法的第一阶段中使用的识别技术。

•对象识别:SVO方法中的对象识别通常使用传统方法进行，包括通过边缘检测或颜色匹配进行基于模型的形状匹配[84]、HAAR特征匹配[164]、基于上下文的对象识别[156]、尺度不变特征变换(SIFT)[101]、判别训练的基于零件的模型[54]和可变形零件模型(DPM)[52]、[53]。
•人体和活动检测:人体检测方法采用定向梯度直方图(HOG)[39]等特征，然后使用SVM。对于活动检测，像时空兴趣点这样的特征，如定向光流直方图(HOOF)[32]、贝叶斯网络(BN)[72]、动态贝叶斯网络(DBNs)[59]、隐马尔可夫模型(HMM)[27]、状态机[85]和PNF网络[121]已经被SVO方法使用。
•集成方法:随机属性图像语法(sagg)[192]和随机上下文自由语法(SCFG)[110]不是单独检测与描述相关的实体，而是允许基于其空间和功能关系对视频、图像或场景中存在的视觉实体进行组合表示。使用视觉语法，首先将图像的内容作为解析图提取出来。然后使用解析算法来找到描述视频的最佳评分实体。换句话说，并非视频中存在的所有实体都具有相同的相关性，这是与上述方法相比，这类方法的一个明显特征。

对于第二阶段，句子生成，已经提出了各种方法，包括卤素表示[93]，头部驱动短语结构语法(HPSG)[122]，计划器和表面实现器[126]。这些方法的主要共同任务是定义模板。模板是包含占位符的用户定义语言结构。为了正常工作，模板由三部分组成:词汇、语法和模板规则。Lexicon代表描述高级视频特征的词汇。模板规则是用户自定义的规则引导
在这里插入图片描述

图4:用于视频句子生成的各种模板示例。用主语、动词和宾语来填充这些模板。动词从使用时空特征的动作/活动检测方法中获得，而主语和宾语则从使用空间特征的对象检测方法中获得。

为句子生成选择合适的词汇。语法定义语言规则来描述语言中的表达式结构，确保生成的句子在语法上是正确的。使用生成规则，Grammar可以从相对较小的词汇表中生成大量的各种配置。
在基于模板的方法中，句子是通过将最重要的实体拟合到模板所需的每个类别中来生成的，例如主语、动词、宾语和地点。在内容识别阶段识别的实体和动作被用作词汇。生成的句子的正确性由Grammar保证。图4给出了在基于模板的方法中用于句子生成的一些流行模板的示例。图5给出了经典方法随时间演变的时间轴，而下面我们将SVO方法分为三类，即以主题(人类)为中心，以动作和对象为中心，以及在开放域视频上使用SVO方法的方法，从而对SVO方法进行了调查。注意，这些类别之间的划分界限经常是模糊的。

(1)主题(人类)聚焦:2002年，Kojima等人[84]提出了最早专门为视频字幕设计的方法之一。该方法主要侧重于描述一个人只执行一个动作的视频。为了检测场景中的人类，他们使用像素色度的值和分布来计算像素来自背景或皮肤区域的概率。一旦检测到人类的头和手，通过考虑三种几何信息，即头部和手的位置以及头部的方向，来估计人类的姿势。例如，为了获得头部方向，将检测到的头部图像与预先收集的头部模型列表进行比较，并使用阈值来决定匹配的头部方向。对于物体检测，他们对预定义的已知物体列表应用了双向匹配，即基于形状的匹配和基于像素的颜色匹配。检测到的动作都与物体处理有关，差分图像用于检测诸如放下物体或举起物体之类的动作。为了在句子中生成描述，使用了Nishida等人[112]、[113]提出的预定义的格框架和动词模式。格框是一种用于表示格之间关系的框架表达式，分为8类。常用的是agent、object和locus。例如，“一个人从“从桌子走到门口”，表示为:
[PRED:walk, AG:person, GO-LOC:by(门)，SO-LOC:front(桌)]，
，其中PRED是动作的谓词，AG是agent或actor, GO-LOC是目标位置，SO-LOC是源位置。定义了一系列关于动作的语义原语，这些原语是使用身体动作状态转换来组织的。例如，如果检测到移动并且速度很快，则活动状态从移动过渡到跑步。它们还能区分持续的动作(比如走路)和瞬间的动作(比如站起来)。他们的方法的主要缺点是，它不能很容易地扩展到更复杂的场景，如多个参与者，合并时间信息，并捕获事件之间的因果关系。严重依赖人工创建的活动概念层次和状态转移模型的正确性，也阻碍了它在实际情况下的应用。
Hakeem等人[66]解决了Kojima等人[84]工作的不足，并提出了一个使用分层case表示的扩展案例E 框架(case)。他们将多个智能体事件、时间信息和事件之间的因果关系结合起来，用自然语言描述事件。他们在AG、[PRED:move, AG:{person1, person2}，…]中引入了case-list来合并多个智能体。此外，他们利用时间逻辑将时间信息合并到CASE中，对子事件之间的关系进行编码。由于一些事件以其他事件为条件，他们也捕获了事件之间的因果关系。例如，在“一个人弹钢琴，人群鼓掌”这句话中，鼓掌的发生是因为钢琴被演奏了。[CAUSE: [PRED:play, D:crowed, FAC:鼓掌]]。

Khan等人[78]引入了一个框架，使用自然语言句子来描述视频中与人类相关的内容，如动作(仅限于五个)和情绪。他们实现了一套传统的图像处理技术，包括人脸检测[89]、情感检测[102]、动作检测[27]、非人类物体检测[164]和场景分类[81]，以从视频帧中提取感兴趣的高级实体。其中包括人类、物体、动作、性别、位置和情感。由于它们的方法封装了与人类相关的行为，人类被渲染为主体，而执行动作的对象被渲染为客体。采用基于模板的方法根据检测到的实体生成自然语言句子。他们在50个片段的数据集上评估了该方法，每个片段的持续时间为5到20秒。在50个片段中，20个片段是人类特写镜头，30个片段展示了人类活动，如站立、行走、坐着、跑步和挥手。他们的研究主要集中在人类与某些物体互动的活动上。因此，在视频中检测到人类之前，他们的方法不会生成任何描述。该方法无法识别带有细微动作(如吸烟和饮酒)的行为以及人类之间的互动。

(2) Action and Object Focused:Lee等人[94]提出了一种在图像解析、事件推理和语言生成三个连续阶段对视觉内容进行语义注释的方法。“图像解析引擎”使用随机属性图像语法(sagg)[192]用于生成视觉词汇表，即框架中存在的视觉实体及其关系的列表。然后将该输出输入“事件推理引擎”，该引擎提取视觉事件的语义和上下文信息，以及它们的关系。视频事件标记语言(Video Event Markup Language, VEML)[111]用于表示语义信息。在最后阶段，使用头部驱动的短语结构语法(HPSG)[122]从语义表示中生成文本描述。与Kojima等人[84]相比，基于语法的方法可以推断和注释更大范围的场景和事件。我们使用了120分钟内包含400多个移动物体的10个城市交通和海上场景流来进行评估。一些检测到的事件包括“进入场景、移动、停止、转弯、接近交通十字路口、船只接近海事标志和陆地区域以及一个物体跟随另一个物体的场景”[94]。召回率(Recall)和精确率(Precision rate)被用来评估相对于人工标记的地面真相而检测到的事件的准确性。由于从较少的视角视图对运动方向的估计较差，他们的方法在“转弯”事件上表现不佳。
hankmann等人[68]提出了一种自动描述由一个或多个个体执行的涉及多个动作(平均7个)的事件的方法。与Khan等人[78]不同的是，除了人-物交互之外，还考虑了人与人之间的交互。feature bag -of-feature(共48个)被收集为动作检测器[29]，用于检测和分类视频中的动作。描述生成器随后描述动作与场景实体相关的动词。它在物体或人物中找到合适的行动者，并将它们与合适的动词联系起来。与Khan等人[78]假设主语总是一个人相反，hankmann等人[68]也将主语概括为包括交通工具。此外，人类行为的数量也要丰富得多。与Khan等人[78]中的5个动词相比，他们有48个动词来捕捉各种各样的动作，如接近、到达、反弹、携带、捕捉等。
Barbu等人[24]生成了简短的句子描述

高度受限领域的视频，包括70个对象类，48个动作类和118个单词的词汇表。他们分别将检测到的对象和动作呈现为名词和动词。形容词用来表示物体的属性，介词用来表示它们的空间关系。他们的方法包括三个步骤。在第一步中，通过每帧限制12个检测来避免过度检测，在每帧上进行目标检测[53]。其次，进行目标跟踪[144]、[154]，以提高精度。第三，使用动态规划选择最优检测集。然后使用隐马尔可夫模型(hmm)生成与视频中的动作相对应的动词标签。在获得动词后，所有的轨迹被合并，以生成符合语法规则的基于模板的句子。
在这里插入图片描述
图5:经典方法随时间的演变。总的来说，这些方法的重点从对象(人类)转移到动作和对象，然后再转移到包含所有三个SVO类别的开放域视频。

尽管在受限环境中为视频生成了相当准确的语言描述，但上述方法在扩展以适应开放领域和大型视频语料库中增加的对象和动作数量方面存在困难。为了整合所有相关概念，这些方法需要为每个实体定制检测器。此外，当时的现有方法生成的文本大多是使用语法和模板将关键字列表放在一起的形式，没有任何语义验证。为了解决缺乏语义验证的问题，Das等人[41]提出了一种混合方法，与简单的关键字注释方法相比，该方法产生了高相关性的内容。他们借鉴了图像字幕技术的思想。这个混合模型以分层的方式由三个步骤组成。首先，在自下而上的方法中，使用低级视频特征预测关键词。在这种方法中，他们首先使用多模态潜在主题模型在词汇表的训练集上找到建议分布。然后通过使用语法规则和词性(POS)标记，选择最可能的主语、宾语和动词。其次，采用自顶向下的方法，检测一组概念并将其拼接在一起。然后使用三方图模板将缝合的概念转换为自然语言描述。最后，为了进行语义验证，他们通过将预测的关键词与文本进行比较，生成了一组自然语言句子。

在这里插入图片描述
图6:主语-动词-对象-地点(SVOP)[153]方法的示例，其中置信度是通过整合来自视觉识别系统的概率，以及来自域外英语文本语料库的统计数据来确定最可能的SVOP元组来获得的。红色块表示视觉系统给出的正确对象的低概率，由语言模型的高概率修正。

开放域视频的SVO方法:虽然前面提到的大多数作品都局限于约束域，但Krishnamoorthy等人[87]领导了描述开放域视频的早期作品。他们使用了选定的开放域YouTube视频，然而，主题和对象仅限于分类器训练集中可用的20个实体。他们的主要贡献是引入了使用网络规模文本语料库的文本挖掘，以帮助选择最佳的SVO元组来改进句子
一致性。

除了关注开放域视频和利用网络规模的文本语料库外，Guadarrama等人[64]和Thomason等人[153]开始处理相对较大的词汇表。与Krishnamoorthy等人[87]相比，他们不再只使用PASCAL数据集中的20个对象[48]，而是使用YouTube语料库的所有视频来检测241个对象、45个主语和218个动词。为了描述YouTube短视频，Guadarrama等人[64]提出了一种新颖的语言驱动方法。他们引入了“零射击”动词识别，用于在训练集中选择看不见的动词。例如，如果主语是“人”，宾语是“车”，模型预测的动词是“移动”，那么最合适的动词将是“驾驶”。Thomason等人[153]使用YouTube视频上的视觉识别技术对主语、动词和宾语进行概率估计。他们的方法如图6所示。对象和动作分类器在ImageNet上进行训练[140]。除了检测主语、动词和宾语外，还识别了执行动作的地点(12个场景)，例如厨房或操场。为了进一步提高将视觉检测到的实体分配到正确类别的准确性，使用从四个“域外”英语文本语料库(英语Gigaword、英国国家语料库(BNC)、ukWac和WaCkypedia EN)获得的语言统计数据的概率来增强句子生成的词-类别对齐的置信度。还构建了一个小型的“域内”语料库，该语料库包含用于视频描述数据集的人工注释的句子，并将其纳入句子生成阶段。共病的bi-gram。

(SV, VO和OP)来自候选SVOP元组的统计数据使用“域外”和“域内”语料库计算，这些语料库用于因子图模型(FGM)中预测最可能的SVO和位置组合。最后，通过基于模板的方法，使用检测到的SVOP元组生成英语句子。
经典的方法主要侧重于分别检测预定义的实体和事件。然后，这些方法尝试使用基于模板的句子来描述检测到的实体和事件。然而，为了描述开放域视频或具有更多事件和实体的视频，经典方法必须为每个实体使用对象和动作检测技术，这由于计算复杂性是不现实的。此外，考虑到语言的复杂性和多样性，基于模板的描述不足以描述视频中所有可能的事件。因此，这些方法无法描述语义丰富的视频。

统计方法

Na¨ıve基于SVO元组规则的工程方法确实不足以描述开放域视频和大型数据集，如YouTubeClips[34]、TACoS-MultiLevel[130]、MPII-MD[132]和M-VAD[155]。这些数据集包含非常大的词汇表以及数十小时的视频。这些开放域数据集和之前的数据集有三个重要的区别。首先，开放域视频包含不可预见的主题、对象、活动和地点的多样化集合。其次，由于人类语言的复杂性，这样的数据集通常用多个可行的有意义的描述进行注释。第三，要描述的视频通常很长，可能长达数小时。用多个句子甚至段落来描述这类视频就变得更可取了。
为了避免基于规则的工程方法所需要的繁琐工作，Rohrbach等人[135]提出了一种将视觉内容转换为自然语言的机器学习方法。他们使用了视频和相关注释的平行语料库。他们的方法分为两步。首先，它学习使用最大后验估计(MAP)将视频表示为中间语义标签。然后，它将语义标签翻译成自然语言。

在这里插入图片描述
图7:文献中基于深度学习的视频描述技术包括两个主要阶段。第一阶段涉及视觉内容提取，并由固定长度向量或动态向量表示。第二阶段从第一阶段获取用于文本生成的视觉表示向量的输入，并生成单个/多个句子。

使用从统计机器翻译(SMT)中借用的技术生成句子[83]。在这种机器翻译方法中，中间语义标签表示是源语言，而预期的注释被视为目标语言。
对于目标和活动识别阶段，研究从早期的基于阈值的检测[84]转向手动特征工程和传统分类器[41]，[64]，[87]，[153]。对于句子生成阶段，可以观察到近年来机器学习方法的吸收，以解决大词汇量的问题。最近的方法趋势也证明了这一点，这些方法使用模型来学习以弱监督[130]、[135]、[177]、[182]或完全监督[38]、[64]、[87]、[149]的方式学习的词汇条目。然而，这两个阶段的分离使得这一阵营的方法无法捕捉视觉特征和语言模式的相互作用，更不用说学习视觉工件和语言表征之间的可转移状态空间了。在下一节中，我们将回顾深度学习方法，并讨论它们如何解决开放域视频描述所面临的可扩展性、语言复杂性和领域可转移性问题。

深度学习模型

在计算机视觉的几乎所有子领域中，深度学习的旋风式成功也彻底改变了视频描述方法。特别是卷积神经网络(cnn)[88]是视觉数据建模的最新技术，在物体识别等任务上表现出色[88]、[147]、[151]。另一方面，长短期记忆(LSTMs)[71]和更通用的深度递归神经网络(RNNs)现在正在序列建模领域占据主导地位，在机器翻译[37]、[150]、语音识别[62]和密切相关的图像标注任务[45]、[163]中设定了新的基准。虽然传统方法难以应对用于视频描述的大规模、更复杂和多样化的数据集，但研究人员已经将这些深度网络以各种配置组合在一起，并具有良好的性能。

如图7所示，视频描述的深度学习方法也可以分为两个连续的阶段，即视觉内容提取和文本生成。然而，与第2.1节中的SVO元组方法(通过视觉内容提取作为第一阶段的结果生成词法词令牌)相比，取而代之的是生成由固定或动态实值向量表示的视觉特征。这一阶段通常被称为视频编码阶段。在这个编码阶段使用CNN、RNN或长短期记忆(LSTM)来学习这些视觉特征，然后在第二阶段用于文本生成，也称为解码阶段。对于解码，使用不同口味的RNN，如深度RNN、双向RNN、LSTM或门控循环单元(GRU)。得到的描述可以是单句，也可以是多句。图8展示了一个具有编码器-解码器阶段的典型端到端视频描述系统。编码部分之后是均值池化、时间编码或注意机制等转换，以表示视觉内容。一些方法在其框架中应用序列到序列学习和/或语义属性学习。上述机制已被当代方法以不同的组合使用。我们根据编码和解码阶段深度学习架构的不同组合对文献进行分组，即:

•CNN - RNN Video Description，其中卷积架构用于视觉编码，循环结构用于解码。这是基于深度学习的视频描述方法中最常用的架构;•RNN——RNN视频描述，这两个阶段都使用循环网络;和•深度强化网络，相对较新的视频描述研究领域。

CNN-RNN视频描述

鉴于其在计算机视觉方面的成功和简单性，CNN仍然是目前使用最广泛的网络结构

在这里插入图片描述
图8:基于深度学习的视频描述方法总结。大多数方法采用帧表示的平均池化来表示视频。更高级的方法使用注意机制、语义属性学习和/或采用序列到序列的方法。这些方法的不同之处在于视觉特征是仅在语言模型的第一个时间步还是所有时间步被馈送。
对于视觉编码。编码过程大致可以分为固定大小和可变大小的视频编码。
Donahue等人[45]率先使用深度神经网络来解决视频字幕问题。他们提出了三种用于视频描述的架构。他们的模型是基于这样一个假设，即在完整的视频通过后，对主体、客体和动词进行基于CRF的预测。这使得该架构可以在每个时间步观察完整的视频。第一个架构，具有CRF max的LSTM编码器-解码器，是由Rohrbach等人[135]在前面的2.2节中提到的基于统计机器翻译(SMT)的视频描述方法驱动的。认识到LSTM最先进的机器翻译性能，[135]中的SMT模块被一个堆叠的LSTM取代，该LSTM包含两层用于编码和解码。与[150]类似，第一个LSTM层编码输入句子的one-hot向量，允许可变长度的输入。然后将来自第一个编码器阶段的最终隐藏表示输入到解码器阶段，通过每个时间步产生一个单词来生成一个句子。该架构的另一种变体是具有CRF max的LSTM解码器，它包含了max预测。这种架构将语义表示编码成固定长度的向量。与图像描述类似，LSTM能够在每个时间步看到整个视觉内容。LSTM的一个优点是，它能够在训练和测试期间合并概率向量。LSTM的这一优点在该架构的第三个变体中得到了利用，即具有CRF概率的LSTM解码器。与在第二种变体(具有CRF max的LSTM解码器)中使用max预测不同，该体系结构结合了概率分布。尽管LSTM优于[135]的基于SMT的方法，但它仍然不能以端到端方式进行训练。
与Donahue等人[45]采用中间角色表示的工作相反，Venugopalan等人[161]提出了第一个端到端可训练的网络架构，用于生成视频的自然语言描述。他们的模型能够同时学习视频的

相关语言的语义和语法结构。此外，Donahue等人[45]提出了包含预定义对象和演员的特定领域烹饪视频的结果。另一方面，Venugopalan等人[161]报告了开放域YouTube Clips的结果[33]。为了避免有监督的中间表示，他们将LSTM直接连接到CNN的输出。CNN提取视觉特征，而LSTM对序列动态建模。他们使用CNN模型[74]将短视频转换为固定长度的视觉输入，该模型与AlexNet[88]略有不同。CNN模型[74]是使用ILSVRC-2012对象分类数据集(包含120万张图像)学习的，该数据集是Ima- geNet[140]的一个子集。它为视频中的初始化对象识别提供了一种鲁棒且高效的方法，无需手动特征选择。他们在视频中每隔10帧采样一次，并从CNN的fc7层提取所有样本帧的特征。此外，他们通过将提取的所有逐帧特征向量平均为单个向量来表示完整的视频。然后将这些特征向量馈送到一个双层LSTM中[63]。来自CNN的特征向量构成LSTM第一层的输入。第二个LSTM层堆叠在第一个LSTM层的顶部，其中第一个LSTM层的隐藏状态成为第二个LSTM单元的输入，用于生成标题。从本质上讲，将多个基于帧的特征向量转换为单个基于聚合视频的向量，将视频描述问题减少为图像字幕问题。这种端到端模型比当时的视频描述系统表现更好，并且能够在没有任何模板的情况下有效地生成序列。然而，由于简单的平均，视频中有价值的时间信息，比如任意两个物体出现的顺序，都会丢失。因此，这种方法只适用于为片段中只有一个主要动作的短片段生成字幕。
开放域视频富含演员和对象之间的复杂交互。这类视频的表示方式为us-

因此，处理一个时间平均的单个特征向量容易产生杂波。因此，产生的描述必然是不充分的，因为在表示中没有捕获事件的有价值的时间顺序信息。随着C3D[157]在捕获视频中的时空动作动态方面的成功，Li等人[178]提出了一种新的3D-CNN来建模视频中的时空信息。他们的3D-CNN基于GoogLeNet[151]，并在一个活动识别数据集上进行了预训练。它捕获连续帧之间的局部精细运动信息。随后，通过将视频建模为3D时空长方体，对这些局部运动信息进行总结并通过更高级的表示进行保存。通过HoG、HoF、MbH[40]、[167]的串接进一步表示。这些变换不仅有助于捕获局部运动特征，还减少了后续3D CNN的计算量。对于全局时间结构，提出了一种时间注意机制，并改编自软注意[20]。使用3D CNN和RNN中的注意机制，他们能够改善结果。最近，GRU-EVE[12]被提出作为一种有效且计算效率高的视频字幕技术。GRU- eve使用标准GRU进行语言建模，但使用了如下的丰富视觉编码。它以层次化的方式对2D/3D-CNN特征应用短傅里叶变换来封装时空视频动态。视频中检测到的物体和动作的高级语义进一步丰富了视觉特征。有趣的是，通过对2D-CNN特征单独应用短傅里叶变换获得的丰富特征[12]优于C3D[157]特征。
与上面讨论的固定视频表示模型不同，可变视觉表示模型能够直接将包含不同帧数的输入视频映射到可变长度的单词或句子(输出)，并且能够成功地建模各种复杂的时间动态。Venugopalan等人[160]提出了一种架构来解决输入(视频帧)和输出(句子)阶段的可变表示问题。为此，他们使用了一个双层LSTM框架，其中视频帧的序列被输入到LSTM的第一层。第一层LSTM的隐藏状态构成了LSTM第二层的输入。第二层LSTM层的输出是相关的标题。两个阶段的LSTM参数是共享的。虽然序列到序列学习之前已经被用于机器翻译[150]，但这是第一个在视频字幕中使用序列到序列方法的方法[160]。后来的方法采用了类似的框架，其中有轻微的变化，包括注意机制[178]，制作一个常见的视觉语义嵌入[116]，或者将域外知识与语言模型[159]或视觉分类器[131]一起使用。
虽然与以前使用的基于分类器的方法相比，深度学习取得了更好的结果，但大多数方法旨在从仅包含一个主要事件的视频片段中生成一个句子。在现实世界的应用中，视频通常包含不止一个事件。只用一句话来描述这种多事件和语义丰富的视频，最终会被过度简化，因此，信息不足。比如，而不是说“有人用刀切土豆，把洋葱切成碎片，把洋葱和土豆放进锅里”，单句生成法可能会说“有人在做饭”。Yu等人[183]提出了一种分层递归神经网络(h-RNN)，该网络在时间和空间两个方面都应用了注意机制。他们专注于句子解码器，并引入了一个分层框架，该框架由一个句子生成器和一个段落生成器组成。首先，门控循环单元(GRU)层将视频特征作为输入，并生成单个短句子。另一个循环层使用上下文和从句子生成器获得的句子向量生成段落。段落生成器因此捕获句子之间的依赖关系，并生成一段相关的句子。最近，Krishna等人[86]引入了视频中事件的密集字幕概念，并采用动作检测技术来预测时间间隔。他们提出了一个模型，通过一个视频的单遍提取多个事件，试图同时描述检测到的事件。这是同类工作中首次检测和描述视频中的多个和重叠事件。然而，该模型在字幕基准上并没有取得显著的改进。

RNN - RNN视频描述

虽然没有CNN-RNN框架那么流行，但另一种方法也是使用rnn对视觉信息进行编码。Srivastava等人[148]使用一个LSTM从视频帧中提取特征(即编码)，然后将特征向量通过另一个LSTM进行解码。他们还引入了模型的一些变体，并从之前的帧中预测了未来的序列。作者采用了机器翻译模型[150]进行视觉识别，但在分类准确率上并没有取得显著的提高。
Yu等人[183]提出了类似的方法，并在视频描述任务中使用了两种RNN结构。他们的配置是一个具有多个门控循环单元(GRU)的分层解码器，用于句子生成。然后将该解码器的输出馈送到段落生成器，该段落生成器在关注语言方面的同时对句子之间的时间依赖性进行建模。作者改进了视频描述的最新结果，然而，他们的方法对于涉及细粒度活动和小型交互式对象的视频来说效率低下。

深度强化学习模型

深度强化学习(Deep Reinforcement Learning, DRL)在许多现实世界的游戏中已经超越了人类。在DRL中，人工智能代理通过试错从环境中学习，并纯粹从环境的奖励或惩罚中调整学习策略。DRL方法自2013年起由Google Deep Mind[108]、[109]推广。由于缺乏直接的成本函数，与传统的监督式技术相比，这种方法中的学习机制设计起来相当困难。与传统的监督方法相比，强化学习中有两个明显的挑战:(1)模型不能完全访问被优化的函数。它必须通过交互来查询函数。(2)
与环境的交互是基于状态的，其中当前输入依赖于先前的动作。然后，强化学习算法的选择取决于手头问题的范围。例如，分层强化学习(HRL)框架的变体已被应用于Atari游戏[91]，[162]。同样，DRL的不同变体也被用于满足图像字幕[128]以及视频描述[36]、[95]、[119]、[120]、[171]等具有挑战性的要求。
Xwang等人[171]提出了一种使用强化学习进行视频描述的全可微神经网络架构。他们的方法遵循一个通用的编码器-解码器框架。编码阶段使用ResNet-152[70]捕获视频帧特征。帧级特征通过两级编码器进行处理，即低电平LSTM[141]和高电平LSTM[71]。对于解码，他们使用HRL来逐字生成自然语言描述。HRL代理由三个组件组成，一个低级工作者完成经理设定的任务，一个高级经理设定目标，一个内部评论家确定任务是否已经完成，并相应地通知经理，以帮助经理更新目标。这个过程不断迭代，直到达到句末标记。该方法被证明能够捕获视频内容的更多细节，从而生成更细粒度的描述。然而，与现有的基线方法相比，这种方法几乎没有改进。
2018年，Chen等人[36]提出了一种基于强化学习的模型，选择关键信息帧来表示完整的视频，试图将噪声和不必要的计算最小化。关键帧的选择使其最大化视觉多样性并最小化文本差异。因此，平均6-8帧的紧凑子集可以表示完整的视频。根据几个流行的基准进行评估，证明可以在不降低性能的情况下生成视频字幕，但大大降低了计算成本。该方法没有使用运动特征进行编码，这是在速度和精度之间的设计权衡。
基于DRL的方法越来越受欢迎，并在视频描述中显示出可比的结果。由于其非常规的学习方法，DRL方法不太可能受到标记训练数据缺乏、硬件约束和过拟合问题的困扰。因此，这些方法有望蓬勃发展。

数据集

用于视频描述的标记数据集的可用性一直是该研究领域快速发展背后的主要推动力。在本调查中，我们总结了这些数据集的特点，并在表1中给出了概述。这些数据集被分为四大类，分别是Cooking、Movies、Videos in The Wild和Social Media。在大多数数据集中，每个视频分配一个单独的标题，除了少数数据集，每个视频片段包含多个句子甚至段落。

烹饪

MP-II烹饪

Max Plank Institute for Informatics (MP-II) Cooking数据集[134]包括65个细粒度的烹饪活动，由12名参与者准备14道菜，如水果沙拉和蛋糕等。数据记录在同一个厨房，摄像头安装在天花板上。这65项烹饪活动包括“洗手”、“放入碗中”、“切开”、“从抽屉中取出”等。当人不在场景中30帧(1秒)或正在执行一个没有注释的活动时，就会生成一个“后台活动”。这些细粒度的活动，例如“切片”、“倒”或“调味”，是通过低类间和高类内可变性的动作来区分的。该数据集总共包含44个视频(888,775帧)，每个片段的平均长度约为600秒。该数据集跨越了所有视频总共8小时的播放长度，以及5609个注释。

YouCook

YouCook数据集[41]由88个不同人烹饪各种食谱的YouTube烹饪视频组成。大多数视频的背景(厨房/场景)都是不同的。与MP-II Cooking[134]数据集相比，这个数据集代表了一个更具挑战性的视觉问题，MP-II Cooking数据集是在同一厨房和相同背景下用固定的摄像机视角记录的。该数据集分为六种不同的烹饪风格，例如烧烤、烘焙等。对于机器学习，训练集包含49个视频，测试集包含39个视频。还为训练视频提供了对象和动作的逐帧注释。数据集的对象类别包括“器具”、“碗”和“食物”等。Amazon Mechanical Turk (AMT)被用来对每个视频进行人工生成的多个自然语言描述。每个AMT工作人员在每个视频中至少提供三句话作为描述，平均每个视频收集8个描述。图9(b)为示例片段和描述。

炸玉米饼

文本注释烹饪场景(TACoS)是MP-II复合材料的一个子集[136]。TACoS经过进一步处理，为高质量视频提供连贯的文本描述。请注意，MP-II复合材料比MP-II烹饪包含更多的视频，但更少的活动[134]。它包含212个高分辨率视频和41个烹饪活动。MP-II复合材料数据集中的视频跨越了不同的长度，从1-23分钟不等，平均长度为4.5分钟。TACoS数据集是通过MP-II Composites进行过滤构建的，同时仅限制那些涉及烹饪成分操作的活动，并且同一活动至少有4个视频。结果，TACoS在127个视频中包含了26个细粒度的烹饪活动。AMT工作人员被雇用来对齐句子和相关视频，例如:“准备胡萝卜”、“切黄瓜”或“分离鸡蛋”等。对于每个视频，收集了20个不同的文本描述。该数据集由11,796个句子组成，其中包含17,334个动作描述。数据集中总共使用了146771个单词。几乎50%的单词，即75,210个描述了例如名词、动词、形容词等内容。这些词包括28,292个动词标记的词汇量。该数据集还通过获得每个活动开始和结束的近似时间戳来提供描述活动的句子的对齐。图9(d)显示了一些示例片段和描述。

在这里插入图片描述

TACoS-MultiLevel

TACoS Multilevel[130]语料库注释也通过AMT工作者在TACoS语料库上收集[125]。对于TACoS语料库中的每个视频，收集了三个级别的描述，包括:(1)视频的详细描述，每个视频不超过15个句子;(2)每个视频包含3-5个句子的简短描述;最后(3)视频的单句描述。数据的注释以对象、活动、工具、来源和目标等元组的形式提供，其中一个人总是主体。参见图9(e)的示例片段和描述。

YouCook II

YouCook-II数据集[190]由2000个视频组成，均匀分布在89个食谱上。烹饪视频来自YouTube，提供了开放域视频的所有挑战，如摄像机位置的变化、摄像机运动和背景的变化。完整的数据集的总播放时间为175.6小时，词汇量为2600个单词。这些视频被进一步划分为每个视频3-16个片段，平均每个视频有7.7个片段详细阐述程序步骤。单个片段长度从1秒到264秒不等。所有片段都进行了时间定位和标注。每个视频的平均长度为316秒，最长可达600秒。数据集随机分成训练集、验证集和测试集，比例分别为66%:23%:10%。

电影MPII

MD

MPII-Movie Description Corpus[132]包含从94部好莱坞电影中提取的转录音频描述。这些电影被细分为68,337个带有an的片段

平均长度为3.9秒，配上68375个句子，相当于每个片段几乎有一个句子。每个片段都配对一个句子，从电影的剧本和音频描述数据中提取。音频描述(ADs)首先通过使用在线服务MakeMkV1 和Subtitle Edit 2从电影中检索音频流来收集。使用众包转录服务对这些音频流进行进一步转录[2]。然后使用时间戳将转录的文本与相关的口语句子对齐。为了消除音频内容与视觉内容本身的错位，每个句子也被手动与相应的视频片段对齐。在手动对齐过程中，描述视频片段中不存在的内容的句子也会被过滤掉。音频描述轨道是数据集中的一个附加功能，用于描述视觉内容，以帮助视障人士。数据集视频的总时间跨度几乎为73.6小时，词汇量为653,467。示例片段和描述如图9(f)所示。

M-VAD

蒙特利尔视频注释数据集(M-VAD)[155]基于描述性视频服务(DVS)，包含来自92部不同电影的48,986个视频片段。每个片段的平均跨度超过6.2秒，完整数据集的总时间为84.6小时。句子总数为55904个，很少有片段与一个以上的句子相关联。数据集的词汇量跨度约为17609个单词(名词- 9512个:动词- 2571个:形容词- 3560个:副词-857个)。数据集分割由38,949、4,888和5,149个视频片段组成，分别用于训练、验证和测试。示例片段和描述见图9(g)。

社交媒体3.3.1 VideoStory

VideoStory[58]是一个包含20k个社交媒体视频的多句子描述数据集。该数据集旨在解决长故事叙事或描述生成问题

https://www.makemkv.com/
http://www.nikse.dk/SubtitleEdit/

图9:来自各种基准视频描述数据集的示例视频帧(每个片段3个非连续帧)和字幕。C1-C5表示来自数据集的相关(示例性)字幕。

可能无法用单句充分说明的视频。每个视频至少搭配一个段落。平均每个段落有4.67个时间本地化的句子。数据集中共有26245个段落，包含123k个句子，平均每句13.32个单词。平均而言，每个段落涵盖了96.7%的视频内容。数据集包含共发生事件之间约22%的时间重叠。该数据集分别对17908、999和1011个视频进行了训练、验证和测试分割，并提出了一个包含1039个视频的盲测集。每个训练视频都伴随着一个段落，然而，验证集和测试集中的视频各有三个段落用于评估。盲测的注释没有发布，只在服务器上可用，用于对不同的方法进行基准测试。
3.3.2 ActivityNet实体
ActivityNet Entities数据集(或ANet-Entities)[189]是第一个具有实体接地和注释的视频数据集。该数据集建立在ActivityNet Captions数据集[86]的训练和验证分割的基础上，但使用了不同的标题。在这个数据集中，视频描述的名词短语(NPs)已经扎根于视频帧中的边界框。该数据集包括14281个带注释的视频，52k个视频片段，每个视频片段至少有一个带注释的名词短语和158k个带注释的边界框。该数据集采用了与ActivityNet Captions类似的训练集(10k)。然而，ActivityNet Captions的验证集随机且均匀地分为ANet-Entities验证集(2.5k)和测试集(2.5k)。

野外视频

MSVD

微软视频描述(Microsoft Video Description, MSVD)数据集[33]由1,970个带有人工注释句子的YouTube片段组成。该数据集也由AMT工作人员进行了注释。所有片段中的音频都是静音的，以避免描述中词汇选择的偏差。此外，在数据集制定的质量控制过程中，删除了包含字幕或覆盖文本的视频。最后，对提交的视频进行人工过滤，以确保每个视频都符合规定的标准，并且没有不适当和模糊的内容。该数据集中每个视频的持续时间通常在10到25秒之间，主要显示一个活动。该数据集由多语言(如中文、英语、德语等)人类生成的描述组成。平均而言，每个片段有41个单句描述。该数据集已被研究界频繁使用，详见Results Section 6。几乎所有的研究小组都将这个数据集分成训练、验证和测试分区，分别为1200个、100个和670个视频。图9(a)显示了来自MSVD数据集的示例片段和描述。

MSR-VTT

MSR-Video to Text (MSR-VTT)[176]包含了用于视频字幕任务的各种开放域视频。它由7180个视频组成，这些视频被细分为10000个片段。这些视频被分成20个不同的类别。图9©显示了一个例子。数据集被划分为6513个
14个训练视频，497个验证视频和2990个测试视频。每个视频包含20个由AMT工作人员注释的参考字幕。就带有多个关联句子的片段数量而言，这是最大的视频字幕数据集之一。除了视频内容，这个数据集还包含音频信息，可以潜在地用于多模态研究。

猜谜游戏

这个数据集[146]包含9848个日常室内家庭活动的视频。这些视频是由来自三大洲的267名AMT工作人员录制的。他们拿到了描述动作和物体的脚本，并被要求按照脚本用指定的物体执行动作。脚本中使用的对象和动作来自固定的词汇表。视频在15个不同的室内场景中录制，限定只能使用46个对象和157个动作类。该数据集由66500个注释组成，描述157个动作。它还为其46个对象类提供了41104个标签。此外，它还包含27847个描述，涵盖了所有视频。数据集中的视频描述了平均持续时间为30秒的日常生活活动。数据集被分成7985个和1863个视频，分别用于训练和测试目的。

VTW

VTW (Video Titles in the Wild)[187]包含18100个视频片段，平均每个片段时长为1.5分钟。每个片段只用一句话来描述。然而，它包含了多样化的词汇，在整个数据集中，平均一个词出现在不超过两个句子中。除了每个视频的单句之外，该数据集还提供了伴随的描述(称为增强句子)，这些描述描述了片段的视觉内容中不存在的信息。该数据集被提议用于视频标题生成，而不是视频内容描述，但也可用于包括视频问答在内的语言级理解任务。

ActivityNet Captions

ActivityNet Captions数据集[86]包含来自Activ- ityNet[192]的约20k个视频的100k个密集自然语言描述，这些视频对应大约849小时。平均而言，每个描述由13.48个单词组成，覆盖约36秒的视频。每个视频都有多个描述，当组合在一起时，这些描述涵盖了整个视频中存在的94.6%的内容。此外，10%的时间重叠使得数据集对于研究同时发生的多个事件特别有趣和具有挑战性。图9(h)给出了该数据集的一个示例。

视频描述比赛

视频描述研究快速发展的另一大推动力来自于近年来公司和会议组织的众多竞赛和挑战。下面列出了一些主要的竞赛。

在这里插入图片描述

LSMDC

大规模电影描述挑战(LSMDC)[3]于2015年与ICCV 2015一起启动，并于2016年作为ECCV研讨会启动。该挑战赛包括一个公开发布的测试集和一个保密的盲测集。提供了一个服务器来自动评估[10]结果。挑战包括三个主要任务，即电影描述，注释/检索和填空。自2017年以来，除了之前的三个任务外，MovieQA挑战也被包含在LSMDC中。
这个挑战的数据集是在ICCV 2015研讨会上首次引入的[3]。LSMDC数据集基本上结合了两个基准数据集，M-VAD[155]和MPII- MD[132]，这两个数据集最初是独立收集的(参见3.2节)。这两个数据集在本次挑战赛中被合并，删除了重叠部分，以避免在测试集和训练集中重复出现同一部电影。此外，在MPII-MD上执行的手动校准也从验证集和测试集中删除。然后，数据集仅通过来自另外20部电影的片段(没有对齐的注释)进行增强，以构成挑战的盲测。添加这些额外的片段仅用于评估。最终的LSMDC数据集从202部独特的电影中提取了118081个视频片段。每个片段大约有一个句子。参考字幕中人物的名字被替换为标记词“某人”。数据集进一步分为91908个训练片段，6542个验证片段，10053个公开测试片段和9578个片段的盲(带-持有)测试集。平均剪辑长度约为4.8秒。训练集字幕由22,829个独特的单词组成。LSMDC数据集的总结可以在表2中找到。
对视频描述(Section-6)的基准测试结果的调查显示，LSMDC已经成为最具挑战性的数据集，几个模型的表现不佳就可以证明这一点。正如在数据集部分(第3.2节)中提到的，电影片段的自然语言描述通常来自电影脚本和音频描述，因此当文本引用片段剪切点之前或之后出现的对象时，经常会出现字幕和视频之间的不一致。不对齐当然是导致在该数据集上观察到的性能不佳的关键因素。挑战赛的提交协议类似于MSCOCO Image Captioning挑战赛[35]，并使用相同的协议进行自动评估。使用人工评估来选择最终的获胜者。LSMDC上自动评估的最新结果是公开的[11]。

MSR-VTT

2016年，为了进一步激励和挑战学术界和科技行业研究界，微软启动了微软研究-视频到文本(MSR-VTT)[4]竞赛Tion旨在将计算机视觉和语言研究人员聚集在一起。本次竞赛使用的数据集是数据集部分(第3.4节)中描述的MSR-VTT[176]。比赛的参与者被要求使用MSR-VTT数据集开发一个视频到文本的模型。外部数据集，无论是公共的还是私有的，都可以用来帮助更好地进行对象、动作、场景和事件检测，只要在提交文件中明确引用和解释使用的外部数据。
与LSMDC不同的是，MSR-VTT挑战只关注视频到文本的任务。这个挑战需要一个竞争算法来自动生成至少一个描述视频中信息量最大的部分的自然语言句子。在评估阶段，准确性是针对人类生成的字幕进行基准测试的。评估基于使用多个通用指标(如BLEU@4、METEOR、ROUGE-L和CIDEr-D)自动计算的分数。这些指标的细节在第- 5节中给出。与LSMDC一样，人工评价也用于对生成的句子进行排名。

TRECVID

文本检索会议(TREC)是一系列强调信息检索(IR)研究各个子领域的研讨会。特别是TREC视频检索评估(TRECVID)[1]研讨会，始于2001年，致力于基于内容的数字视频开发研究工作。主要研究领域包括“语义索引、视频摘要、视频复制检测、多媒体事件检测和特设视频搜索”[1]。自trecc -2016以来，使用自然语言的视频到文本描述(Video to Text Description, VTT)[19]也被纳入挑战任务。
TRECVID-2017 VTT任务使用了一个超过50K的自动收集的Twitter Vine视频数据集，其中每个片段的跨度约为6秒。该任务是在一个由1880个Twitter Vine视频组成的手动注释的选定子集上执行的。根据每个视频的描述数量(2到5)，数据集进一步分为四组，G2, G3, G4和G5。此外，根据描述视频的难度等级，每个视频被标记为容易或困难。来自VTT数据集的示例帧如图10所示。
TRECVID使用METEOR、BLEU和CIDEr等指标(详见第- 5节)进行自动评估，此外还使用了一个新引入的指标，称为语义文本相似性(STS)[67]。顾名思义，STS测量生成的和参考描述的语义相似度。还采用人工评估来衡量遵循直接评估(DA)[61]方法自动生成的描述的质量。由于其高可靠性，DA现在被用作机器翻译基准评估的官方排名方法[28]。根据基于DA的视频描述评价，

在这里插入图片描述
图10:来自TRECVID-VTT数据集的示例视频帧。(a) Easy-Video类别的帧和(b) Hard-Video类别的帧。
向人类评估者展示视频-句子对，以在0 - 100[60]的范围内对句子对视频中事件的描述程度进行评分。

ActivityNet挑战

ActivityNet视频中的密集字幕事件[7]于2017年首次作为ActivityNet大规模活动识别挑战[8]，[57]的任务推出，自2016年以来作为CVPR研讨会运行。该任务研究视频中多个事件的检测和描述。在Activ- ityNet字幕数据集中，为每个视频片段提供了多个描述和时间戳，其中每个描述涵盖了视频片段的唯一部分。总之，该视频片段中的多个事件可以使用这组句子进行覆盖和叙述。这些事件的持续时间可能是可变的(或长或短)，甚至是重叠的。该数据集的详细信息在3.4.5节和表1中给出。
基于服务器的评估[5]是为这个挑战执行的。生成的字幕的精度使用BLEU、METEOR和CIDEr指标进行测量。挑战的最新结果也是公开的，可以在网上找到[6]。

评估指标

对机器生成的视频标题/描述进行的评估可以分为自动评估和人工评估。自动评估使用六种不同的指标执行，这些指标最初是为机器翻译和图像字幕设计的。这些指标是BLEU[118]、ROUGEL [98]、METEOR[22]、CIDEr[158]、WMD[92]和SPICE[14]。下面，我们将详细讨论这些指标，以及它们的局限性和可靠性。由于有许多不同的方法可以正确描述相同的视频，因此自动指标的性能不令人满意，因此进行了人工评估。

自动句子生成评估

评估视频描述，无论是自动生成还是手动生成，都是具有挑战性的，因为没有具体的基础真理或“正确答案”，可以作为基准准确性的参考。视频可以用各种各样的句子来正确描述，这些句子不仅在句法上可能不同，而且在语义内容方面也可能不同。例如，考虑图11所示的MSVD数据集的样本，对于相同的视频片段，可以使用几个基本事实说明。请注意，每个标题

以同样有效，但不同的方式描述片段，片段中的细节关注度和水平不同，从“喷气式飞机”，“商用飞机”到“南非喷气式飞机”，从“飞行”，“飙升”到“银行”，最后从“空气”，“蓝天”到“晴朗的天空”。
对于自动评价，在将生成的句子与地面真实描述进行比较时，从机器翻译中借用了三个评价指标，即双语评价代替研究(BLEU)[118]、注册评价的回忆导向代替研究(ROUGE)[98]和明确排序翻译评价度量(METEOR)[22]。基于共识的图像描述评价(CIDEr)[158]和语义命题图像字幕评价(SPICE)[14]是最近引入的另外两个专门为图像字幕任务设计的指标，它们也被用于视频描述的自动评价。表3给出了本调查中包含的指标的概述。除了这些自动评估指标外，还采用人工评估来确定自动视频描述算法的性能。

双语评估研究(BLEU, 2002)

BLEU[118]是一种常用的度量标准，用于量化机器生成文本的质量。质量衡量的是机器和人类输出之间的对应关系。BLEU分数考虑了预测的单格(单个单词)或高阶n - gram (n个相邻单词的序列)与一组一个或多个候选参考句子之间的重叠。根据BLEU，高分描述应该在长度上与基础真句相匹配，即单词及其顺序的精确匹配。BLEU评估将为精确匹配得分为1。请注意，每段视频中ground truth中引用句子的数量越多，BLEU得分越高的可能性就越大。bleu主要用于在语料库级别评估文本，因此，将其用作单个句子的评估指标可能不公平。BLEU的计算方法为:
在这里插入图片描述
在上式中，lr/lisc 为对应参考语料库长度与候选描述长度之比，为正n 权重，pis为修正后n-gram精度的几何平均值n 。虽然第二项计算的是实际匹配分数，但第一项是简短惩罚，惩罚比参考描述短的描述。

图11:来自MSVD[33]数据集的示例，带有相关的地面真值说明。请注意，相同的视频片段如何被描述得非常不同。每个标题都以不同的方式全部或部分地描述了该活动。

注册评估的回忆导向替代研究(ROUGE, 2004)

ROUGE[98]度量是在2004年提出的，用于评估文本摘要。它使用n - gram计算与参考句子对应的生成句子的召回分数。与BLEU类似，ROUGE也是通过改变n-gram计数来计算的。然而，与基于精度的BLEU不同，ROUGE是基于召回值的。此外，除了ROUGEn的n-gram变体之外，它还有其他版本，分别是ROUGEL (最长公共子序列)、ROUGEW (加权最长公共子序列)、ROUGES (Skip-Bigram共现统计)和ROUGESU (ROUGES 的扩展)。我们建议读者参考原文了解详细信息。图像和视频字幕评价中使用的版本是ROUGEL，它计算生成的句子和每个参考句子之间最长公共子序列(LCS)的召回率和精度分数。该指标比较候选句子和参考句子中单词的公共子序列。背后的直觉是，候选句和参考句的LCS越长，对应的两个摘要之间的相似性就越高。单词不必是连续的，但应该是有顺序的。ROUGE-N的计算方法为

在这里插入图片描述
n是n-gram的长度，gn, Cm(gn)表示在候选和基本事实摘要中存在的n-gram的最高数量，Sum r代表参考摘要。
计算基于lcs的F-measure得分，以找出长度为m的摘要A与长度为n的摘要B的相似程度。其中A是来自基本真理摘要的句子，B是来自候选生成摘要的句子。将召回率R、精度Plcsand f-score Farelcs 计算lcs 为
在这里插入图片描述

其中LCS(A, B)是A和B之间最长公共子序列的长度，β = Plcs/Rlcs。由方程lcs f计算的基于lcs的F-measure得分称为

ROUGEL score。当A =B时，rouL gecore为1，当A和B没有共性，即LCS(A, B) = 0时，rougecore为0。
rouges的优点之一是L 它不考虑单词的连续匹配，而是在句子中使用顺序匹配。此外，也不需要预先定义n-gram长度，因为这是由LCS自动合并的。

带有显式排序的翻译评估度量(METEOR, 2005)

METEOR[22]是为了解决BLEU[118]的缺点而提出的。METEOR引入了语义匹配，而不是BLEU所要求的精确词法匹配。METEOR采用WordNet[51]这个英语词汇数据库来考虑各种匹配级别，包括精确词匹配、词干匹配、同义词匹配和释义匹配。
METEOR的分数计算是基于生成的句子和参考句子的对齐程度。每个句子都被视为一组元图，对齐是通过映射候选句子和参考句子的元图来完成的。在映射过程中，候选句子(或参考句子)中的unigram要么映射到参考句子(或候选句子)中的unigram，要么映射到零。如果有多个选项可用于两个句子之间的对齐，则首选交叉次数较少的对齐配置。在完成对齐过程后，计算METEOR分数。
最初，使用P = mcr/ct m关系计算基于一元图的精度分数P。这里mcr 表示在两个候选句子以及参考句子中同时出现的unigrams的数量，ct m对应于候选句子中unigrams的总数。然后使用R = mcr/mrt计算基于unigram的召回分数R。这里cr 的m表示在候选句子和参考句子中同时出现的一元图的数量。然而，misrt 是参考句子中出现的元图的数量。此外，使用精度和召回分数来计算f分，使用以下公式:
在这里插入图片描述
精密度、召回率和f分数衡量标准考虑了基于ungram的一致性，而不考虑n - gram。基于n图的相似度用于计算候选句子和参考句子之间对齐的惩罚p。这种惩罚考虑了两个句子之间的非相邻映射。惩罚是通过将unigrams分组为最小数量的chunk来计算的。该块包括候选中相邻的unigrams
在这里插入图片描述
以及参考句。如果生成的句子与参考句子完全匹配，那么只会有一个chunk。惩罚计算为

其中，Nc in表示块的数量，而nu 对应于组合在一起的unigrams的数量。然后计算该句子的METEOR分数为:

在这里插入图片描述
语料库水平分数可以使用相同的公式通过使用所有参数即P, R和P的聚合值来计算。在多个参考句子的情况下，取生成和参考句子的最大METEOR分数。迄今为止，METEOR分数与人类判断的相关性优于BLEU分数。此外，Elliot等人[47]也发现，与当代指标相比，METEOR是一个更好的评估指标。他们的结论是基于Spearman对自动评估指标与人类判断的相关性计算。

基于共识的图像描述评价(CIDEr, 2015)

CIDEr[158]是最近引入的用于图像字幕任务的评价指标。它评估预测句子i 与相应图像的参考句子之间的一致性。它执行词干提取，并将候选句子和参考句子中的所有单词转换为它们的词根形式，例如stem、stemmer、词干和词干。CIDEr将每个句子视为包含1到4个单词的n个grams的集合。为了对预测句子和参考句子之间的一致性进行编码，它测量了两个句子中n-gram的共存频率。最后，在所有图像的参考句子中非常常见的n - gram被赋予较低的权重，因为它们可能对图像内容的信息较少，并且更偏向于句子的词汇结构。每个n-gram的权重是使用Term Frequency Inverse Document Frequency (TF- IDF)计算的[129]。术语TF对图像参考句子中频繁出现的n - gram赋予了更高的权重，而IDF对整个数据集中经常出现的n- gram赋予了更低的权重。
最后，CIDErn score计算为
在这里插入图片描述
其中gn(ci)是表示所有长度为n的n个grams的向量，kgn(ci)k表示gn(ci)的大小。同样适用于gn(sij )。此外，CIDEr使用高阶n-gram(阶越高，单词序列越长)来捕获文本的语法属性和更丰富的语义。就此而言，它使用以下公式将不同n-gram的分数组合在一起:

在这里插入图片描述
在图像和视频描述评价中最流行的CIDEr版本是CIDEr- d，它在最初提出的CIDEr中进行了一些修改，以防止在人类判断中严重失败的标题得到更高的分数。首先，他们提议去除词干提取，以确保使用正确的单词形式。否则，多种形式的动词(单数、复数等)会被映射到同一个标记上，导致错误句子得分很高。其次，它们确保如果高置信度的单词在句子中重复出现，即使句子没有意义，也不会像原始CIDEr那样产生高分。这是通过对候选句子和参考句子之间的长度差异引入高斯惩罚，并裁剪到n-grams计数等于参考句子中的出现次数来实现的。后者确保所需的句子长度不会通过重复高置信度的词来获得高分。上述变化使度量具有鲁棒性，并确保其高相关性得分[158]。

Word Mover’s Distance (WMD, 2015)

WMD[92]使用词嵌入，这是从文本语料库中学习的词的语义上有意义的向量表示。WMD距离度量两个文本文档之间的不相似性。带有不同单词的两个标题可能仍然具有相同的语义含义。另一方面，多个字幕也有可能在这里插入图片描述
图12:具有相同BOW距离的查询d和两个句子2 1 0 d和d之间的WMD度量的分量。1 距离小于1.07的d比距离为1.63的d2 与查询0 d匹配。箭头显示了两个单词之间的流动，并标记了它们的距离贡献。图改编自[92]。
表4:对候选句子进行四种类型的更改(即用同义词替换单词、在句子中添加冗余、改变词序和缩短句子长度)时，自动评价度量分数的变化。第一行显示了BLEU-4、METEOR、ROUGE和CIDEr的上界分数，分别由B、M、R和C表示。

在这里插入图片描述
具有相同的属性、对象及其关系，但仍然具有非常不同的含义。大规模杀伤性武器的提出就是为了解决这个问题。这是因为词嵌入擅长捕获语义，而且由于词的分布式向量表示，它比WordNet更容易计算。两个文本之间的距离被cast为Earth Mover 's distance (EMD)[139]，通常用于运输中使用word2vec嵌入来计算出行成本[107]。
在这个度量中，每个标题或描述都由一个词袋直方图表示，该直方图包括除了开始词和停止词之外的所有词。然后对每个词袋直方图的大小进行归一化。为了考虑词对之间存在的语义相似性，WMD度量使用word2vec嵌入空间中的欧几里得距离。然后将两个文档或标题之间的距离定义为在标题之间移动所有单词所需的成本。图12展示了一个WMD计算过程的示例。将WMD建模为EMD的特例[139]，然后通过线性优化求解。与BLUE、ROUGE和CIDEr相比，WMD对单词顺序或同义词交换的敏感性较低。此外，与CIDEr和METEOR类似，它对人类判断给出了很高的相关性。

语义命题图像字幕评估(SPICE, 2016)

SPICE[14]是最新提出的用于图像和视频描述的评价指标。SPICE衡量从机器生成的描述中解析出来的场景图元组与地面真实情况之间的相似度。语义场景图通过依赖解析树对对象及其属性和关系进行编码。标题c的场景图元组G©由对象类O©、关系类型R©和属性类型A©等语义标记组成，

在这里插入图片描述
SPICE是基于机器生成的描述元组与基本事实之间的f1分数计算的。与METEOR一样，SPICE也使用WordNet来查找同义词并将其视为正匹配。虽然，在目前的文献中，SPICE评分并没有被广泛使用，但一个明显的限制因素可能是解析的质量。例如，在一个句子“白色狗在河里游泳”，失败的情况可能是“游泳”这个词被解析为“对象”，而“狗”这个词被解析为“属性”，结果得分很低。

人类的评价

由于缺乏参考字幕，并且与人类对自动评估指标的判断相关性较低，因此人类评估也经常被用来判断机器生成的字幕的质量。人类的评估要么是众包的，比如AMT工作人员，要么是像某些比赛那样的专家评委。这种人工评估可以使用相关性或语法正确性等度量来进一步结构化。在基于相关性的评估中，视频内容相关性被给予主观评分，“最相关”的评分最高，“最不相关”的评分最低。两句话的分数不可能相同，除非它们完全相同。在测量语法正确性的方法中，根据语法正确性对句子进行评分，而不向评估者展示视频内容，在这种情况下，多个句子可能具有相同的分数。

评价指标的局限性

与视频描述一样，对机器生成的句子进行评估也是一项同样困难的任务。目前还没有专门为评估视频描述而设计的指标，相反，机器翻译和图像字幕指标已经为此任务进行了扩展。这些自动指标计算给定参考和候选句子的分数。这种范式有一个严重的问题，即可能有几种不同的方式来描述同一段视频，同时都是正确的，这取决于“描述了什么”(内容选择)和“如何描述”(实现)。这些度量标准无法包含所有这些变化，因此远非完美。各种研究[79]，[170]已经研究了度量分数在不同条件下的表现。在表4中，我们进行了类似的实验[79]，但增加了短长度的变化。首先，对原始标题本身进行评估，以分析每个指标可达到的最大可能得分(表4的第一行)。接下来，在候选句子中引入一些小的修改，以衡量评估指标的行为。观察到，所有的度量分数下降，BLEU和CIDEr受影响最大，当一些单词被同义词取代时。这显然是由于无法匹配同义词。进一步的实验表明，当句子被一些额外的单词干扰时，这些指标总体上是稳定的。然而，研究发现，改变句子中的词序会显著改变基于n-gram的指标(如BLEU、ROUGE和CIDEr)的得分，并在一定程度上改变ROUGE的得分。另一方面，WMD和SPICE被发现对词序变化具有鲁棒性[79]。最后，减少句子长度显著影响BLEU、METEOR和ROUGE得分，但对CIDEr得分影响不大，即得分分别降低了74%、51%、44%和7%。

评价指标的信度

评估视频描述的一个好方法是将机器生成的描述与人类标注的地面真相描述进行比较。然而，如图11所示，参考字幕本身可能会发生变化，并且只能代表同一视频片段的所有有效样本中的少数样本。拥有更多的参考样本标题可以创造更好的解决方案空间，从而导致更可靠的评估。
评估问题的另一个方面是候选句子的句法变化。同样的问题也存在于被充分研究的机器翻译领域。在这种情况下，源语言的一个句子可以被翻译成目标语言的各种句子。句法上不同的句子可能仍然具有相同的语义内容。
简而言之，评估指标通过比较候选标题与参考标题的匹配程度来评估标题对视觉输入的适用性。度量分数与人类判断(即黄金标准)的一致性随着参考标题数量的增加而提高[158]。大量研究[115]、[158]、[158]、[160]、[183]也发现，CIDEr、WMD、SPICE和METEOR与人类判断具有更高的相关性，在当代指标中被认为是优越的。WMD和SPICE是最近才出现的自动字幕评价指标，在本次调查时还没有在文献中得到广泛的研究。

6个基准结果

我们总结了各种技术在每个视频描述数据集上的基准测试结果。我们根据它们报告结果的数据集对方法进行分组，然后按时间顺序排序。此外，对于同一模型的多个变体，这里只报告它们的最佳报告结果。要详细分析每种方法及其变体，请查阅原文。此外，当BLEU指标报告了多个n-gram分数时，我们只选择了BLEU@4结果，因为这是最接近人类评估的。从表5中，我们可以看到大多数方法都在MSVD数据集上报告了结果，其次是MSR-VTT、M-VAD、MPII-MD和ActivityNet Captions。MSVD的受欢迎程度可以归因于YouTube视频的多样性和大量的参考字幕。MPII-MD、M-VAD、MSR-VTT和ActivityNet Captions之所以受欢迎，是因为它们的大小和被纳入比赛(见第4节)。
另一个关键的观察是，早期的作品主要报告了视频中主语、动词、宾语(SVO)和某些情况下地点(场景)检测准确性方面的结果，而最近的作品开始使用自动评估指标报告句子级别的匹配。考虑到数据集的多样性和自动评估指标的局限性，我们使用四种流行的指标BLEU、METEOR、CIDEr和ROUGE来分析不同方法的结果。
表5总结了MSVD数据集的结果。GRU- EVE[12]在METEOR和ROUGEmL etrics上取得了最好的性能，在CIDEr指标上取得了第二好的性能，而LSTM-TSA[117]和M3-IC[169]报告了最好的BLEU分数。RecNetlocal [166]的CIDEr得分最高，BLEU得分次之。如表6所示，在TACoS多层数据集上，h-RNN[183]在所有报告的指标(即BLEU、METEOR和CIDEr)上都有最好的结果。该方法不提供ROUGE评分。
在更具挑战性的M-VAD数据集上，总体上报告的结果(表7)非常差，然而，在呈现的结果中，我们看到到目前为止只有Temporal-Attention[178]和HRNE[115]报告了使用BLEU指标的结果，BLEU得分各为0.7。使用该数据集的所有论文都报告了METEOR结果，到目前为止，BAE[23]产生了最好的METEOR分数，其次是LSTM-TSA[117]。HRNE[115]和Glove+Deep Fusion Ensemble[159]在METEOR得分上并列第三。
MPII-MD是另一个非常具有挑战性的数据集，仍然有非常低的基准测试结果，如表8所示，类似于M-VAD数据集。只有BAE[23]报告了该数据集的BLEU得分。LSTM-TSA[117]取得了最好的METEOR分数，其次是LSTM-E[116]和S2VT[160]，分别位居第二和第三。除了BAE[23]外，没有其他使用该数据集的论文报道过CIDEr和ROUGE得分。
在另一个流行的数据集MSR-VTT上的结果总体上优于M-VAD和MPII-II数据集。如表9所示，CST-GT-None[120]报告了BLEU、METEOR、CIDEr和ROUGE这四个指标的最高分。DenseVidCap[142]和HRL[171]分别报告了BLEU指标的第二和第三高分。GRU-EVE[12]报告了METEOR和CIDEr指标的第三好分数。
另一个最近流行的ActivityNet Cap- tions数据集的结果如表10所示。这个数据集主要是为了密集的视频字幕而引入的，并且非常迅速地流行起来。在该数据集中，Dense- Cap Model[86]在BLEU得分方面位居榜首。METEOR得分最高的是LSTM-A+PG+R[179]。CIDEr和ROUGE指标的最高分分别由方法DVC[97]和JEDDi-Net[174]获得。最后，在表11中，我们分别报告了LSMDC和Charades的两个结果，而YouCook-II数据集只有一个结果。YouCook-II也是一个最近的数据集，在文献中报道的不多。
我们总结了每个数据集的最佳报告方法及其公布的分数。表格按使用的数据集对方法进行分组。因此，可以通过比较相同方法的内部数据集得分和从已报告结果的方法数量中得出的特定数据集的受欢迎程度来推断数据集的难度级别。

表5:视频字幕方法在MSVD数据集上的表现。在所有指标上得分越高越好。每个指标的最佳分数以粗体显示。
在这里插入图片描述

7个未来和新兴方向

自先锋方法以来，自动视频描述已经走了很长的路，尤其是在采用深度学习之后。虽然现有方法的性能仍然远低于人类，但差距正在以稳定的速度缩小，算法改进的空间仍然很大。在这里，我们列出了几个可能的未来和新兴方向，它们有可能推动这一研究领域的发展。

视觉推理

虽然视频VQA仍处于初级阶段，但VQA之外的是视觉推理问题。这是一个非常有前途的领域，值得进一步探索。在这里，模型不仅仅是为了回答一个特定的问题，而是为了解释为什么它选择了那个特定的答案。例如，在一个显示有停车标志的路边的视频中，问题是“车辆可以停在这里吗?”，模型就会正确地回答“可以”。下一个问题是“为什么?”，模型给出的理由是，路上有一个停车标志，这意味着在这里停车是合法的。另一个例子是自动驾驶汽车产生的解释[80]，其中系统通过生成自然语言描述其决策背后的原因来保持乘客的信心，例如减速，转弯等。视觉推理模型的一个例子是MAC网络[73]，它能够思考和推理，在CLEVR [76]， a上给出了有希望的结果
视觉推理数据集。

视觉对话

类似于音频对话(例如Siri, Hello Google, Alexa和ECHO)，视觉对话[42]是另一个有前途和蓬勃发展的领域，特别是在我们期待与机器人互动的时代。在视觉对话中，给定一段视频，以对话/对话的方式依次向模型提出一系列问题。模型试图回答(无论对或错)这些问题。这与视觉推理不同，在视觉推理中，模型论证导致模型选择特定答案的原因。

音频和视频

虽然大多数计算机视觉研究都集中在视频描述上，但在没有音频帮助的情况下，音频自然存在于大多数视频中。音频可以通过提供背景信息来帮助视频描述，例如，在没有视觉线索的情况下，火车、海洋、交通的声音。音频还可以提供语义信息，例如，电话另一端的人是谁或他们在说什么。它还可以提供关于故事、上下文的线索，有时还可以明确地提到物体或动作，以补充视频信息。因此，在视频描述模型中使用音频肯定会提高性能[69]，[114]。

外部知识

在视频描述中，大多数时候我们都是将性能与人类进行比较

拥有广泛的领域外知识或先验知识。当人类观看一个片段并对其进行描述时，大多数时候他们并不仅仅依赖于视觉(甚至音频)内容。相反，他们会额外运用他们的背景知识。同样，用先前的外部知识来增强视频描述技术将是一种有趣且有前途的方法[173]。这种方法在视觉问答方法中表现出明显更好的性能，并且有可能提高视频描述的准确性。

解决有限模型容量

现有方法正在尝试执行端到端训练，同时使用尽可能多的数据来更好地学习。然而，这种方法本身在学习方面存在固有的局限性，因为无论训练数据集有多大，它都永远无法涵盖现实世界事件的组合复杂性。因此，学习使用数据而不是学习数据本身更为重要，并且可能有助于提高即将到来的系统性能。

字幕生成的视频描述

与机器翻译相结合，视频字幕可能用于自动视频字幕。目前这是一个人工的、耗时的、成本非常高的过程。这方面的研究不仅有利于娱乐，世界上最大的产业之一，但它将潜在地帮助提高视听材料的理解视力和听力受损，以及第二语言学习者。

自动评估措施

到目前为止，视频描述依赖于为机器翻译和图像字幕任务设计的自动指标。到目前为止，还没有专门设计的自动视频描述(甚至字幕)评估指标。虽然为图像字幕设计的指标是相关的，但它们有其局限性。随着未来密集的视频字幕和讲故事任务的出现，这个问题将会加剧。我们需要一种更接近人类判断的评估指标，它可以概括视觉内容实现的多样性。一个很有前途的研究方向是使用机器学习来学习这样的度量，而不是手工设计它。

结论

我们首次对视频描述研究进行了全面的文献综述，从基于主-动-宾(SVO)元组的经典方法到更复杂的基于统计和深度学习的方法。我们回顾了通常用于训练和测试这些模型的流行基准数据集，并讨论了定期举行的国际竞赛/挑战，以促进视频描述研究。我们详细讨论了视频描述可用的自动评估指标，强调了它们的属性和局限性。我们对使用所有指标的基准数据集上的最新方法获得的结果进行了全面总结。这些结果不仅显示了现有方法的相对性能，而且突出了数据集的不同难度水平以及评估指标的鲁棒性和可信度。最后，我们对未来的研究提出了一些建议

有可能推动这一研究领域边界的23个方向。
从算法设计的角度来看，尽管lstm已经显示出有竞争力的字幕生成性能，但底层模型的可解释性和可理解性较低。具体来说，与所采用的语言模型自然产生的偏见相比，很难区分有多少视觉特征对特定单词的生成做出了贡献。当目标是诊断错误字幕的生成时，这个问题就会加剧。例如，当我们从包含“白色消防栓”的帧中看到视频描述模型生成的标题“红色消防栓”时，很难确定颜色特征是由视觉特征提取器错误编码的，还是由于所使用的语言模型中对“红色消防栓”的偏见。未来的研究必须专注于改进诊断机制，以锁定架构中有问题的部分，以便对其进行改进或替换。
我们的调查显示，阻碍这方面研究进展的一个主要瓶颈是缺乏有效的、有目的地设计的视频描述评估指标。目前的指标要么来自机器翻译，要么来自图像字幕，并且在衡量机器生成的视频字幕的质量及其与人类判断的一致性方面存在不足。改善这些指标的一种方法是增加参考句子的数量。我们认为，从数据本身学习的目的构建指标是推进视频描述研究的关键。
一些挑战来自于视频本身的多样性。例如，视频中的多个活动，其中字幕仅代表一些活动，可能导致模型的视频描述性能较低。同样，持续时间较长的视频带来了进一步的挑战，因为大多数动作特征只能编码短期动作，如轨迹特征和C3D特征[157]，这些特征依赖于视频片段长度。大多数特征提取器仅适用于静态或平滑变化的图像，因此难以处理突然的场景变化。目前的方法通过表示整体视频或帧来简化视觉编码部分。注意力模型可能需要进一步探索，以关注视频中空间和时间上重要的部分。同样，视觉特征本身的时间建模在现有方法中也是相当初级的。大多数方法要么使用完全丢弃时间信息的均值池，要么使用只能建模15帧的C3D模型。未来的研究应该集中于设计更好的时间建模架构，最好以端到端的方式学习，而不是将视觉描述与时间模型和时间建模与语言描述分离开来。