未修饰视频中单个时间戳监督的动作识别

在这里插入图片描述

识别视频中的动作依赖于训练期间的标记监督,通常是每个动作实例的开始和结束时间。这种监督不仅是主观的,而且获取成本很高。弱视频级别的监督已成功地用于未修剪视频中的识别,但是当训练视频中不同动作的数量增加时,它还是会面临挑战。本文提出的一种方法,由未修剪视频中位于每个动作实例周围的单个时间戳进行监督学习。根据这些时间戳初始化的采样分布来代替昂贵的动作范围。然后,使用分类器的响应来迭代更新采样分布。作者证明了这些分布收敛于判别性动作片段的位置和程度。作者在三个数据集上对其方法进行了评估,以实现细粒度的动作识别,每个视频的不同动作的数量不断增加,并且表明单个时间戳在识别性能和标记工作之间提供了合理的折衷,与完全的时间监督性能相当。更新方法将top-1测试准确性提高了5.4%。跨评估的数据集。

即,单个时间戳与完整时间监督学习的对比。

1.引言

视频中动作识别的典型方法依赖于完全的时间监督,即训练的动作开始和结束时间的可用性。当动作边界可用时,时间边界所包围的所有(或大多数)帧都可以被认为与动作相关,因此,现有技术中的方法随机或统一地选择表示动作的帧并训练分类器。收集这些边界不仅繁重且昂贵。

随着对更大的视频数据集的需求不断增长,扩大注释过程以促进视频理解的更快发展非常重要。在这项工作中,作者尝试通过在未修剪的视频中使用单个大致对齐的时间戳注释来减轻此类注释的负担,即每个标签仅标有一个时间戳的视频动作,位于靠近感兴趣动作的位置。这样的标记收集起来更快,并且更重要的是,它更易于与注释器(annotators)进行通信,而注释器不必决定何时开始或结束动作,而仅标记动作内部或附近的一个时间戳即可。可以从音频旁白和视频字幕中收集单个时间戳。

为了利用这种弱监督,作者提出了一种从单个时间戳初始化的采样分布,以选择相关的帧来训练动作识别分类器。由于时间戳的潜在粗略位置以及具有不同长度的动作,初始采样分布可能无法与动作很好地对齐,如图1(顶部)所示。因此,作者提出了一种使用分类器的响应来更新训练期间采样分布参数的方法,以便对更多相关的帧进行采样并加强分类器(图1,底部)。

作者的尝试受到了基于图像的语义分割中单点注释的类似方法的启发,该方法中,使用这种点监督获得的结果的准确性略低于使用完全注释的mask版获得的结果,但优于通过图像级注释获得的结果。相应地,我们证明了针对动作识别的单一时间戳监督优于形成视频级监督。

在三个数据集上测试了本文的方法,并用实时音频评论中的单个时间戳进行了注释。实验表明,作者的更新方法收敛于三个数据集中动作的位置和时间范围,并提高了三个数据集的初始准确性
。还演示了在此更新过程中课程学习的优势,以及我们对采样分布的初始参数的方法的鲁棒性。当单个时间戳始终在动作范围内时,作者的方法可以与所有数据集上受严格监督的模型相提并论。

。
图 1 在给定单个时间戳的情况下,用未修剪的视频中的采样分布替换动作边界(每个分布的中心)。 初始分布(顶部)可能会重叠(例如“广口瓶”,“汤匙”)并包含背景框。 在训练过程中使用分类器响应迭代地优化分布(底部)

Jean-Baptiste Alayrac, Piotr Bojanowski, Nishant Agrawal,
Josef Sivic, Ivan Laptev, and Simon Lacoste-Julien. Unsu-
pervised learning from narrated instruction videos. In CVPR,
2016. 1
Amy Bearman, Olga Russakovsky, Vittorio Ferrari, and Li
Fei-Fei. What’s the point: Semantic segmentation with point
supervision. In ECCV, 2016. 1, 2
Joao Carreira and Andrew Zisserman. Quo vadis, action
recognition? a new model and the kinetics dataset. In CVPR,
2017. 1, 6
Guilhem Ch´eron, Jean-Baptiste Alayrac, Ivan Laptev, and
Cordelia Schmid. A flexible model for training action lo-
calization with varying levels of supervision. arXiv preprint
arXiv:1806.11328, 2018. 1, 2
Davide Moltisanti, Michael Wray, Walterio Mayol-Cuevas,
and Dima Damen. Trespassing the boundaries: Labeling
temporal bounds for object interactions in egocentric video.
In ICCV, 2017. 1
Gunnar A. Sigurdsson, Olga Russakovsky, and Abhinav
Gupta. What actions are needed for understanding human
actions in videos? In ICCV, 2017. 1
Christoph Feichtenhofer, Axel Pinz, and Andrew Zisserman.
Convolutional two-stream network fusion for video action
recognition. In CVPR, 2016. 1
Vicky Kalogeiton, Philippe Weinzaepfel, Vittorio Ferrari,
and Cordelia Schmid. Action tubelet detector for spatio-
temporal action localization. In ICCV, 2017. 1
Karen Simonyan and Andrew Zisserman. Two-stream con-
volutional networks for action recognition in videos. In
NIPS, 2014. 1
Dima Damen, Hazel Doughty, Giovanni Maria Farinella,
Sanja Fidler, Antonino Furnari, Evangelos Kazakos, Da-
vide Moltisanti, Jonathan Munro, Toby Perrett, Will Price,
and Michael Wray. Scaling egocentric vision: The EPIC-
KITCHENS Dataset. In ECCV, 2018. 1, 5, 6
Limin Wang, Yuanjun Xiong, Dahua Lin, and Luc Van Gool.
UntrimmedNets for weakly supervised action recognition
and detection. In CVPR, 2017. 2, 8
Limin Wang, Yuanjun Xiong, Zhe Wang, Yu Qiao, Dahua
Lin, Xiaoou Tang, and Luc Van Gool. Temporal segment
networks: towards good practices for deep action recogni-
tion. In ECCV, 2016. 1, 6
Serena Yeung, Olga Russakovsky, Greg Mori, and Li Fei-
Fei. End-to-end learning of action detection from frame
glimpses in videos. In CVPR, 2016. 1

以上部分的参考文献

2.单一时间戳监督的识别

这项工作考虑为精细动作识别提供一组包含多个不同动作的未修剪视频的情况。那就是训练一个分类器f(x)= y的任务,该分类器以一个帧(或一组帧)x作为输入,以从x的视觉内容中识别出一个类y。该方法与分类器无关,即,不对分类器的性质做任何假设。

此任务的典型注释由操作的开始和结束时间给出,这些时间限制了未修剪视频中每个操作的时间范围以及类别标签。我们将此标签称为时间范围注释。使用这种监督时,可以使用相应的开始/结束时间戳之间的帧来训练分类器。当使用每个动作实例的单个时间戳替换这些注释时,训练分类器并不容易。图2将时间范围(a)与单个时间戳注释(b)进行了比较。在图2b中,当只有大致对齐的单个时间戳可用时,哪些帧可用于训练分类器尚不清楚。当接近动作时,对应于单个时间戳的帧可以表示背景或另一动作。此外,动作的程度是未知的。该方法基于合理的假设,即已标记了每个类的多个实例,从而允许模型收敛到正确的帧。

在这里插入图片描述

图 2 当开始/结束时间可用时(a),可以将带标签的边界内的所有帧分配给类标签。由于动作界限不可用(b),因此方法旨在迭代更新框架和类标签之间的映射(c)。上下图描绘不同的视频

本文提出了一个采样分布(第3.1节),从带注释的时间戳开始为分类器选择训练帧,如图2c所示。初始化后(第3.2节),将基于分类器的响应来迭代更新采样分布的参数,以尝试纠正时间戳错误并通过更相关的帧来增强分类器(第3.3节)。

2.1 采样分布

建议用采样分布代替不可用的动作边界,该采样分布可用于选择训练分类器的帧。为简单起见,在这里假设分类器是基于帧的,并且将单个帧作为输入。稍后放松这个假设。

本文认为采样分布应类似于强分类器的输出,即包含该动作的连续帧的高分类分数平台,而其他地方的响应则较低。此功能的另一个理想属性是可微性,因此可以学习或调整它。高斯概率密度函数(pdf)通常用于对可能性进行建模,但是它没有表现出平稳响应,而是在均值附近达到峰值,并从峰值稳步下降。通过定义确定的门功能呈现出陡峭的平台(sharp plateau),但这是不可区分的。所以提出以下函数来对抽样分布的概率密度进行建模

在这里插入图片描述

参数c建模高原的中心,而w和s分别建模高原的宽度(等于2w)和其侧坡的陡度。该功能的范围是[0,1]。在设置中,g定义在未修剪视频的帧x上。在下文中,将g称为平稳函数

2.2 初始化模型

从单个时间戳注释中初始化采样分布。令 a i v a^v_i aiv为一个未修剪的视频v中的第i个单一时间戳并且令 y i v y^v_i yiv为其对应的类标签,对应地,
在这里插入图片描述
。对于每个 a i v a^v_i aiv,使用默认参数w和s初始化以时间戳为中心的采样分布。 用在这里插入图片描述
表示相应采样分布的参数,其中 c i v = a i v c^v_i=a^

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值