Cross-category Video Highlight Detection via Set-based Learning

Abstract
自主亮点检测是提高社交媒体平台上视频浏览效率的关键。为了以数据驱动的方式实现这一目标,人们可能经常面临这样一种情况:在实践中使用的目标视频类别上没有高亮注释,而对另一个视频类别(称为源视频类别)可以实现监督。在这种情况下,通过将从源视频类别获得的高亮知识转移到目标视频类别,可以得到目标视频类别上有效的高亮检测器。我们将这个问题称为跨类别的视频高亮检测,这在以前的工作中很少被研究。为了解决这一实际问题,我们提出了一个基于双学习者的视频高显示检测(DL-VHD)框架。在此框架下,我们首先设计了一个基于设置的学习模块(sl模块),通过在更广泛的背景下评估视频片段的突出程度来改进传统的基于成对的学习。基于这种学习方式,我们引入了两种不同的学习者,分别获得目标类别视频的基本区别和源视频类别上突出时刻的特征,这两种精亮知识通过知识蒸馏进一步巩固。在三个基准数据集上的大量实验证明了所提出的SL模块的优越性,并且DL-VHD方法在各种跨类别突出检测任务上优于五种典型的无监督域自适应(UDA)算法。我们的代码可以在https://github.com/ChrisAllenMing/Cross_Category_Video_Highlight上找到
Introduction
如今,人们对在YouTube和Instagram等社交媒体平台上分享录制自己日常生活的视频越来越感兴趣。然而,在大多数情况下,真实世界事件的原始视频包含了许多与其要点无关的内容,手动挑选出视频的突出部分是一项繁重而耗时的任务。因此,为了提高视频内容细化的效率,需要开发一种自主视频高亮检测的机器学习模型。为了赋予模型识别视频中高亮片段的能力,现有的工作探索了各种监督方式,包括明确的高亮注释,特定视频片段的频繁出现,一个视频的持续时间等等。这些方法通常侧重于为特定的视频类别(如冲浪、滑雪、跑酷等)训练一个突出的检测器,而高光检测模型在不同视频类别之间的可转移性在以前的工作中研究较少。事实上,在实际应用中,可以面对拟在实践中使用的目标视频类别缺乏监控信号,而对另一个视频类别有监督,如图1所示。在这种情况下,我们考虑了跨类别视频高亮检测的问题。这个问题的设置类似于无监督域适应(UDA)[20],其中人们试图将从标记的源域(带监督的源视频类别)学习到的知识适应到未标记的目标域(无监督的目标视频类别)。此外,为了优化亮点检测器,大多数现有方法遵循基于对学习的哲学,即将正样本(例如高亮视频片段或片段包含亮点的片段包)进行比较,训练后,前者的排名预计高于后者。例如,在一场足球比赛中,球员运球的时刻比球员进入球场更有吸引力,而且两者都不如进球的时刻令人兴奋。这些关系很难被单个片段对捕获,这使得基于对学习的模型的突出预测在整个视频范围内可能不精确。基于上述事实,在本工作中,我们提出了一个基于双学习者的视频高显示检测(DL-VHD)框架来解决跨类别视频高显示检测问题。在此框架下,我们首先设计了一个基于集的学习模块(sl模块)来改进传统的基于对的学习方式的突出检测方法。**简而言之,该模块学习回归同一视频的一组片段上回归高亮分数分布,其中使用变压器编码器来建模不同视频片段之间的相互关系。**基于这种学习机制,我们进一步引入了两种不同的学习者来捕捉关于突出时刻的两种类型的知识。具体来说,粗粒度学习者获得了目标类别视频与其他类别视频的区别的基本概念,细粒度学习者获得了源视频上的精确突出概念。通过将这两种知识提炼到另一个学习者中来进一步整合,这些整合的知识形成了关于目标视频类别上的突出时刻的更完整的概念。在实践中,当目标视频类别上有分割级注释时,可以将SL-模块单独应用于得到有效的高光检测器,而当无法获得这种注释时,我们可以采用DL-VHD方法进行高光知识转移。我们的贡献可以总结如下:
1.据我们所知,这项工作是第一次尝试跨类别的视频突出检测,其中我们利用一个基于双学习者的方案,在不同的视频类别中转移关于突出时刻的概念。
2.我们提出了一种新的基于集的学习机制,它能够识别一个视频片段是否在更广泛的背景下被突出显示。
3.在特定于类别的设置下,我们验证了sl模块比以前的方法更优的性能。对于跨类别高亮检测,DL-VHD模型大大超过现有的UDA算法,其性能与目标视频类别训练的监督模型相比较
Related Work
视频亮点检测。这个任务的目的是分配每个视频片段一个分数的价值作为突出。近年来,为这项任务研究的视频从体育视频扩展到社交媒体[32]或第一人称相机拍摄的一般视频,根据监督的方式,本课题的现有工作一般可分为两类。对于监督方法,给出了视频中所有片段的高亮注释。对于弱监督方法[23,48,21,41,14],各种弱监督信号已经被用来定义亮点,包括视频类别[23,48,21]中特定段的频繁出现、视频[41]的持续时间和来自段袋[14]的信息。在模型优化方面,方法大多遵循基于对学习的哲学,即比较正样本和负样本之间的方法。对现有方法的改进。在这项工作中,我们通过学习两种关于突出时刻的知识,并将它们整合到目标视频类别上,重新探索了跨类别的视频突出检测问题。此外,还提出了一种基于集的学习机制,通过对一组视频片段进行突出预测来提高基于对的学习,从而利用丰富的上下文信息更准确地判断每个片段的突出程度。
无监督的域自适应(UDA)。UDA侧重于将从标记的源域学习到的模型推广到另一个未标记的目标域。为了实现这一目标,一个常用的策略是最小化度量域位移的特定度量,**最大平均差异(MMD)、多核MMD、加权MMD、瓦瑟斯坦距离和特征协方差或特征范数的差值。**在另一项研究中,对抗性学习被用来促进在像素级或特征级上的域不变性。为了引入目标域的判别信息,最近的工作利用目标样本的伪标签进行类别级域对齐。这项工作探索了跨类别的视频突出检测,这是一个类似于UDA的问题,其中人们打算将从源视频类别获得的突出知识转移到目标类别。
Method
在这里插入图片描述
3.1. Motivation and Overview
跨类别的视频突出显示检测。在现实世界的应用程序中,对于模型应用于的目标视频类别,可能无法使用片段级的高亮注释,而人们可以获得对另一个视频类别(命名为源视频类别)的监督。因此,在这种情况下,一个自然的问题是如何将源视频类别上的高亮时刻的知识转移到目标类别,即执行跨类别视频高亮检测。一个简单的答案是利用现有的无监督域自适应(UDA)技术在两个不同的视频类别之间的特征分布对齐。然而,对于高亮检测问题来说,这种分布对齐,如果不是不合适的话,也很困难,因为目标类别的高亮片段可能对源类别是麻烦的,反之亦然,这在Sec中得到了实验说明。为了利用这两个类别的数据获得目标视频类别的精确高亮概念,我们提出了一个基于双学习者的视频高亮检测(DL-VHD)框架。在此框架下,模型学习了关于突出时刻的两种知识,即目标类别视频与其他视频的区别和源类别上突出时刻的特征。这两种类型的知识被进一步合并,形成关于目标视频类别的更完整的突出概念。
基于设置的学习。以前的工作通常通过将高亮片段s+与非高亮片段s−进行对比来训练高亮检测模型,后者试图建模条件分布p(y+,y−|s+,s−)。然而,这种基于成对的学习可能无法发现两个以上的片段之间更复杂的突出关系。例如,一场足球比赛的兴奋程度不时地不同,这些时刻的相对突出程度不能被成对的视频片段充分捕捉到。学习模块(SL模块)。其核心思想是训练模型预测一组视频片段上的突出分数分布,单个片段的预测依赖于集合中的所有其他片段,模型p(y1、y2、···、yN|1、s2、···、sN)(N表示集合大小)。通过包含跨越不同视频片段之间的上下文信息,期望模型可以为每个片段分配更准确的高亮分数。通过基于设置的学习进行的视频跨类别高亮检测。为了桥合两个不同视频类别的突出模式,探索同一类别内和不同类别之间的视频片段之间的相互关系是至关重要的。在段集提供的丰富上下文下,可以更好地捕获这种复杂的关系模式。基于这一动机,在DL-VHD中,我们采用sl模块作为基本的学习模块来获得更精确的突出知识。通过基于设置的学习进行的视频跨类别高亮检测。为了桥合两个不同视频类别的突出模式,探索同一类别内和不同类别之间的视频片段之间的相互关系是至关重要的。在段集提供的丰富上下文下,可以更好地捕获这种复杂的关系模式。基于这一动机,在DL-VHD中,我们采用sl模块作为基本的学习模块来获得更精确的突出知识。
在这里插入图片描述
3.2. Set-based Learning Module
sl模块对一组视频片段之间的相互依赖性进行建模,并预测在该组确定的上下文下每个片段的亮点分数,如图2(a)所示。接下来,我们将介绍该模块的详细学习和推理方案。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.3. Dual-Learner-based Video Highlight Detection
在sl模块的基础上,我们现在探讨了跨类别视频高亮检测问题。其主要目的是充分利用标记源视频DS和未标记目标视频DT,得到目标视频类别的高光检测器。为了实现这一目标,我们试图从两个方面捕捉关于目标视频类别的突出概念。一方面,有一些明显的特点可以区分目标类别的视频和其他主题,如冲浪视频中的冲浪板、滑雪视频中的滑雪杆等。对这些特征的感知赋予了模型从混合不同内容的视频中挑选出目标类别的片段的基本能力。另一方面,在不同的视频类别之间共享的突出时刻也有一些共同的特征。例如,一个站着的人在场景的某些表面上移动的时刻可以是冲浪和滑雪视频的亮点。这种通用知识可以用来识别目标视频类别的突出时刻。然而,这两种类型的概念本身都不能充分定义目标类别上的亮点,这需要一个集成不同知识的方案。根据上述直觉,我们设计了一个基于双学习者的框架,其中分别由粗粒度学习者和粗粒度学习者学习两种突出知识,并通过知识蒸馏[12]方案进一步集成。该框架的图形如图所示。 3.我们说明了详细的学习和推理方案如下。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
4. Experiments
在本节中,我们分别将所提出的sl模块和DL-VHD方法与现有的视频亮点检测方法进行了比较。
4.1. Experimental Setup
模型详细信息。在UCF101数据集上预训练的C3D模型作为特征提取的骨干,并在训练过程中固定其参数。Transformer encoder采用5层自注意和前馈块构成,每个多头自注意模块配备8个注意头。评分模型C、粗粒度学习者Ccoarse和细粒度学习者Cfine都被实例化为具有架构FC(4096,1024)→ReLU→FC(1024,256)→ReLU→FC(256,1)的多层感知器,其中FC是全连接层的缩写。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
4.2. Category-specific Video Highlight Detection
数据集。YouTube亮点[32]由六个视频类别组成,即狗、体操、跑酷、滑冰、滑雪和冲浪,每个类别大约有100个视频。提供段级注释,以指示段是否为高亮时刻。我们遵循标准的训练-测试分裂[32]进行模型评估。
TVSum 是一个由10类视频事件组成的视频摘要数据集,每个类别有5个视频,该数据集提供了帧级重要性评分。根据之前的工作,我们对帧级的重要性分数进行平均值,以实现片段级的突出分数。对于每个视频类别,我们选择两个最长的视频(总共约10分钟)进行训练,其余三个视频进行测试。
ActivityNet 是一个用于人类活动分类和检测的大规模数据库。我们使用时间动作定位轨迹的数据来进行高亮检测。具体来说,我们根据一级行动标签将视频样本分为五类,即饮食、个人护理、家庭、运动和社会。视频片段和特定类别的地面真实事件之间的时间交集(tIoU)被用作该视频类别的高亮标签。我们总共利用2520个视频进行训练,1260个视频进行测试,补充材料中为所有视频类别提供了详细的数据集统计数据。
YouTube亮点的结果。在表1中,我们将我们的方法与现有的YouTube视频方法进行了比较。可以看出,所提出的sl模块在所有六类上都优于以前的基于对学习的算法,即LIM-s、MINI-Net、Video2GIF和LSVM,当 Transformer encoder从我们的模型中删除时,仍然可以获得优越的平均mAP。这一现象说明了基于集的学习优于基于对的方法,在该方法中,片段集内更广泛的上下文信息能够对每个视频片段进行更精确的突出预测。在表1中,我们将我们的方法与现有的YouTube视频方法进行了比较。可以看出,所提出的sl模块在所有六类算法上都优于以前的基于对学习的算法,即LIM-s、MINI-Net、Video2GIF和LSVM,当变压器编码器T从我们的模型中移除时,仍然可以获得优越的平均mAP。这一现象说明了基于集的学习优于基于对的方法,在该方法中,片段集内更广泛的上下文信息能够对每个视频片段进行更精确的突出预测。
TVSum的结果。在表2中,报告了TVSum上各种视频突出检测和视频总结方法的性能。在10个视频类别中的9个中,提出的sl模块取得了最好的性能,当删除变压器编码器时,它在10个类别中的7个上仍然优于最先进的MINI-Net。这些结果验证了在训练数据有限的情况下,基于集的训练的有效性,即每个类别只有两个视频进行训练。
ActivityNet的结果。在表3中,我们评估了现有的三种方法和所提模型的两种配置的性能。由于在ActivityNet数据集上的实验通常不包括在以前的工作中,我们通过发布的源代码(对于MINI-Net和LSVM)或重新实现(对于LIM-s)来检查这些工作。在该大规模数据集上的实验结果进一步验证了所提出的训练集学习方法(即在所有五种视频类别上获得最高的测试mAP)的优越性。
4.3. Cross-category Video Highlight Detection
在跨类别高亮检测设置下,我们评估了DL-VHD和各种UDA算法在将高亮知识从源视频类别转移到目标视频类别方面的有效性。在所有实验中,源类别的视频都具有片段级注释,而目标类别的视频则未进行注释。
任务。YouTube的亮点由六个视频类别组成,我们使用冲浪作为来源类别,并评估其他五个类别中的一个作为目标类别的每个案例。此外,我们考虑了一个更困难的设置,其中狗被用作来源类别(即从狗的活动适应到人类的活动),并且这种设置的结果在补充材料中。
活动网包含五类人类活动,我们利用体育作为来源类别,目的是将体育重点的知识转移到其他四个视频类别。对每个目标视频类别的适应情况分别被检查。
Cross-category results on YouTube Highlights.表4中展示了各种方法在五种交叉类别突出显示检测任务上的性能,其中冲浪作为源类别。仅源(目标-oracle)方法表示以有监督的方式在源(目标)视频类别上训练的sl模块,其中它们之间存在明显的性能差距。我们可以观察到DL-VHD的完整模型在5个任务中的4个上超过了现有的五种UDA算法,并且在冲浪→体操和冲浪→滑雪两个任务上惊人优于目标-甲骨文模型。这些结果表明,跨类别视频高光检测不能轻易被视为UDA问题的一个变体,而更专门的技术(如所提出的双学习者和知识蒸馏方案)可以更好地发现不同视频类别之间的可转移高光模式。
活动网络上的跨类别结果。表五中,我们将所提出的DL-VHD模型与五种UDA方法在ActivityNet的跨类别突出检测任务上进行了比较,所有这些任务都以运动作为源类别。DL-VHD的完整模型在所有四项任务上都比UDA算法高,在运动→家庭任务上甚至优于目标谕模型。这些实证结果验证了DL-VHD模型在标记源视频和未标记目标视频的指导下,成功地捕获了目标视频类别上与人类相关的动作模式。
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值