Multi-Video Temporal Synchronization论文笔记

最新推荐文章于 2023-12-23 21:37:01 发布

Nismilesucc

最新推荐文章于 2023-12-23 21:37:01 发布

阅读量4.5k

点赞数

分类专栏： Paper 文章标签：人工智能

HUIKI

本文链接：https://blog.csdn.net/nismilesucc/article/details/122115257

版权

Paper 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

蓝色
紫色
红色

Multi-Video Temporal Synchronization by Matching Pose Features of Shared Moving Subjects

Abstract

协作分析由多个运动摄像机从 不同的随时间变化的视角 拍摄的视频可以帮助解决许多计算机视觉问题。但是，这种协作分析通常需要 在时间上同步的视频 ，这是仅仅依靠相机时钟是会不准确的。在本文中，我们建议基于 视频内容 来解决这个问题。更具体地说，如果多个视频涵盖相同的移动人物，则这些主题在这些视频中的每个 对齐时间点 应表现出 相同的姿势和姿势变化 。基于这个想法，我们开发了一个新的同步网络（SynNet），其中包括一个特征聚合模块，一个匹配的成本量和几个分类层，通过利用 视图不变的人姿势特征 来推断不同视频之间的时间偏移。我们在 SYN、SPVideo 和 MPVideo 数据集上进行全面实验。结果表明，该方法能够准确同步现实世界中采集的多部运动摄像机视频。

1. Introduction

运动相机，如谷歌眼镜和GoPro的可穿戴相机，为视频信息收集和分析提供了新的视角，并发现了许多重要的民用，军事，安全和执法应用[38，40，39，37]。一方面，与传统的固定摄像机相比，运动摄像机可以灵活地覆盖更多 未预先指定的区域 。另一方面，通过与持有人或相机佩戴者一起移动到正确的位置和视角，他们可以更好地捕捉感兴趣的主体和活动。通过组合多个运动摄像机拍摄的视频，例如，几个佩戴摄像机的警察一起工作来处理事件，通过协作探索这些从不同的且随时间变化的记录相同主题或场景的视频可以显着增强视频信息处理能力。

多个视频的协作分析通常需要对这些视频进行准确的时间同步 [14，3，40]，因为在不同和未知时间拍摄的帧不会显示信息对应关系，因此无法很好地集成以进行视频分析。例如，从非同步视频中提取的运动特征可能对应于受试者活动的不同阶段，因此无法组合以获得更好的人类活动识别。另一个例子是，非同步视频可能会在不同时间捕捉移动对象的形状。由于它们不遵循极几何，因此不能用于促进多视图3D人体重建[6，12]。

虽然固定摄像机的时间同步可以通过有线连接和共享时钟轻松解决，但运动摄像机同步是一个非常具有挑战性的问题。显然，由于时间精度有限，我们无法直接依靠相机中的内置时钟进行精确同步。使用WiFi和蓝牙进行相机连接和时钟共享可能会受到通信延迟和中断以及有限范围的影响。在本文中，我们建议根据视频内容同步多个运动摄像机。基本思想是识别一个移动的人或多个移动的人，我们在本文中称之为主题，这些主题存在于所有视频中。如果这些视频是同步的，则它们的时变姿势在视频中任何一帧的3D空间中应该是一致的，如图1所示，在理想情况下，我们可以在每个视频上逐帧提取3D空间中的人形姿势，然后执行跨视频姿势匹配以同步它们。这个想法的有效性已经在以前的工作中得到验证，其中通过手动注释关节来构建准确的人体姿势[27，31，30]。

然而，当使用自动估计的姿势时，这个想法的有效性仍然是未知的。从图像或视频本身进行3D姿势估计是一个非常困难的问题，即使是最先进的算法也可能产生较大的姿势估计误差[7，17，22，5]。本文的主要目标是通过整合多帧信息和采用先进的深度学习技术，找出这种不准确估计的姿势是否仍可用于精确同步视频。更具体地说，我们提出了一种新的同步网络（SynNet），它利用受试者的视图不变的2D人体姿势特征，然后开发一个特征聚合模块，由深度特征提取，全局特征编码和时间编码组成，以编码视频中的姿势特征。最后，我们构建一个匹配的成本量来了解两个视频中的视图不变姿势特征，并执行分类以确定两个视频之间的时间偏移。

我们评估了所提出的方法在SYN，SPVideo和MPVideo数据集上的性能，并取得了有希望的结果。本文的主要贡献是：

我们发现，即使估计的姿势特征不准确，也可以通过匹配视频中共享的姿势特征来同步两个运动摄像机。
我们提出了一个名为SynNet的新型深度网络，通过利用和匹配视图不变姿势功能来同步多个运动摄像机视频。
我们收集了两个新的可穿戴摄像头视频数据集，可用于评估视频同步的性能。

2. Related Work

已经开发了许多方法，通过关联视频的运动特征来同步多个固定摄像机[20，33，1]。但是，这些方法不适用于我们的运动摄像机同步任务 - 提取的运动特征混合了不一致的摄像机运动，并且无法在不同的摄像机之间关联。在本文中，我们将视频同步公式化为匹配具有不同时间偏移的视频之间的帧，然后找到最佳帧。从这个角度来看，关于图像/视频匹配的长线研究工作与我们的工作有关，包括计算机图形学中的视频同步工作线[9，29，32]。然而，这些方法中的大多数[9，29，10，32]旨在使用外观特征匹配视频之间的帧，并且不能很好地解决我们的问题 - 相机视图差异可能会使同步视频之间匹配帧的外观相似性远低于由小时间偏移引起的不同帧之间的外观相似性。

其他信息源也用于帮助视频同步。在[25，23]中，使用特殊的传感器或图像处理算法检测视频同步（或添加到）视频中的闪光或突然的光变化。在[15]中，当视频包含音频通道时，视频同步是通过结合视觉和听觉元素来实现的。与这些方法不同，在本文中，我们不使用任何在实际应用程序中可能不可用的额外信息源。我们仅根据视频的视觉内容同步视频，假设它们同时捕获了至少一个人。这是一个非常合理的假设 - 如果多个视频中没有任何共享的人，则这些视频的同步和协作分析可能不会引起太大兴趣。

该工作受到先前关于使用姿势和姿势轨迹匹配进行时间同步独立运动相机的研究的启发[27，31，30]。但所有这些方法都需要在所有或许多视频帧上手动注释重要的身体关节，这在大多数应用中显然是不可行的。本文的主要动机是研究自动估计的姿势（显然不如手动注释[16]准确）是否仍可用于同步运动相机。这是一个不小的问题 - 视频同步需要区分小的时间偏移，而较大的姿势估计误差可能主导姿势差异并防止小偏移的区分。在本文中，我们将利用多个视频帧中的信息冗余，以及使用深度学习方法来推导姿势热图，来解决这个问题。

与此相关的还有不同视频中显示的不同人物动作的同步[4，21，19]，其中从每个视频中提取2D点轨迹，然后用于对齐不同视频中的动作。这种动作同步不同于我们同步同一主题视频的问题。此外，这些基于2D轨迹的方法不能很好地处理具有较大视差的运动摄像机同步。我们的工作也不同于之前关于第一和第三人称视频的相关作品[24，36]。从本质上讲，我们正在同步多个第三人称视频，至少具有一个共享的主题。正如后来的实验所报道的那样，拟议工作的一个目标是使用从不同视角拍摄的多个视频，对运动主体进行精确的逐帧3D重建。先前的研究表明，准确的视频同步在这项任务中起着至关重要的作用[2，8]。

3. Our Approach

图2显示了用于同步两个运动摄像头视频的提出的SynNet的pipline。首先，我们将两个视频片段分别馈送到两个权重共享分支中，每个分支都由一个用于姿势估计的网络和一个特征聚合模块组成。然后，我们使用获得的特征构建匹配的成本量，然后进行最终分类以推断两个输入视频剪辑之间的时间偏移。对于姿势特征，我们可以使用任何现有的姿势估计网络，例如[5]，它可以为每个身体关节生成热图。在下文中，我们将详细阐述特征聚合模块和匹配成本量构造。

3.1 Feature aggregation

特征聚合模块将输入视频的所有帧上所有关节的热图组合在一起。如图4所示，该模块由深度特征提取、全局特征编码和时间特征编码组成。

深度特征提取：通过使用[5]中的姿势估计方法，我们提取了19个热图通道，每个通道对应于18个关节，其余一个用于背景。这18个关节在四肢上各有三个，头部有五个，脖子上有另一个。在本文中，我们仅使用18个热图通道，排除背景通道。如图 4 所示，我们首先使用 ResNet-50 [13] 对视频剪辑每一帧上的 18 个热图通道进行编码，以进行深度特征提取。ResNet-50 提取的特征具有维度 c × w × h，其中 c 是通道数，w 和 h 是 ResNet-50 输出的宽度和高度。深度特征提取的参数在剪辑中的所有帧之间共享。

全局特征编码：受以前的方法的启发，这些方法结合了完整的图像编码器来改善深度估计和语义分割[11，18]，我们通过使用卷积-ReLU-Pooling层进一步添加了全局特征编码来处理姿势特征。具体来说，我们使用 3 × 3 卷积层和最大池化层，内核大小为 2×2，步幅为 2×2 来减小空间维度。总共使用五个卷积-ReLU-池结构来获得维度为 F = 256 的输出。全局要素编码的参数在剪辑中的所有帧之间共享。

时态特征编码：为了利用相邻帧之间的时空信息，我们进一步添加了一个双向卷积 LSTM 层 [35，26] 来编码每个视频剪辑中的姿势特征，然后将输出特征转换为每帧大小为 F = 256 的矢量。在其转换中包含卷积运算的卷积 LSTM 可以在保留空间信息的同时对时间信息进行编码。双 convLSTM 结构在每对两个方向 LSTM 单元之间没有任何信息交换，然后从前向和后向单元生成的输出特征被组合为每帧的最终输出。

3.2 Matching cost volume

我们将每帧上来自全局特征编码的维度 F 全局特征向量和来自时态特征编码的维度 F 时态特征向量连接起来，然后使用 FC 层将串联特征的维度转换为 F。每帧上转换后的特征最终串联起来，形成尺寸为 n×F 的视频剪辑特征，其中 n 是视频剪辑中的帧数。

我们构建了一个匹配的成本量，通过遍历所有可能的偏移量来全面表示两个视频剪辑中的姿势信息。如图 3 所示，我们将两个输入视频剪辑的蓝色和红色矩阵（（n×F）维特征分别连接在一起，其中一个位于另一个的顶部，偏移量 m。这将产生一个尺寸为n×2F的矩阵，如果我们用零填充m个空白列（图3（b）中的白色矩形），并在另一端修剪m列。通过在 [−M，M − 1] 中改变 m，我们得到 2M 这样的串联矩阵，这些矩阵按顺序堆叠以构造 3D 匹配成本体积，如图 3（b）所示。匹配成本体积的尺寸为2M × n × 2F。

3.3 Classification

通过将可能的时态偏移量量化为一组预先指定的整数值 {−M，−M + 1， · · · · ， 0， · · ， 1， · · ， M − 1}，其中 M > 0，我们可以将视频同步问题表述为具有 2M 类标签的分类问题。图 5 说明了将两个视频与 M = 4 对齐的所有可能方法。请注意，由于类定义的更改，为 M 选择不同的值需要在我们的方法中重新训练 SynNet。对于分类，匹配的成本量被馈送到一个批量归一化层，然后我们根据经验添加三个 FC 层，以输出每个可能的时间偏移的大小为 2M 的概率向量。

3.4 Loss function

基于上述多分类问题的表述，我们提出了一种新的SynNet损失函数。通过将交叉熵损失和惩罚项相结合，此损失函数由下式定义：
在这里插入图片描述

其中 0 ≤ α ≤ 1 是用于平衡两个损失项的加权参数。第一项是经典的交叉熵损失：

在这里插入图片描述
其中 $x=(x_0,x_1,..., x_{2M−1})^T ∈ R^{2M}$ 是来自最终 FC 层的概率向量，类标签 l 取值 [0， 2M − 1]，其中每个标签表示可能的偏移量。 $w_l$ 是每个类标签的权重，我们直接为所有标签设置 $w_l = 1$ ，因为我们事先不知道哪个偏移量可能比其他标签更频繁地发生。

第二个损失项 $L_{penalty}$ 旨在根据预测结果与基本事实之间的差异惩罚所有抵消错误分类，其定义如下：

在这里插入图片描述
其中 x 是最终 FC 层中具有最大概率的标签。

4. Experiments

在本节中，我们将在三个数据集上评估建议的 SynNet。一个是SYN数据集[39]，用于跨视频人员识别。另外两个是我们为这项工作新收集的SPVideo和MPVideo数据集。我们使用这些数据集进行烧蚀研究，以研究特征类型、热图中的关节数量以及视频下采样率对 SynNet 性能的影响。我们还显示了与其他现有方法的比较结果。为了说明精确视频同步的重要性，我们最终将同步结果应用于基于视频的3D人体重建。

4.1 Datasets

4.2 Evaluation criteria

4.3 Model specifications

4.4 Ablation study

4.5 Comparison with other methods

4.6 Real-world videos

4.7 Evaluation on 3D human reconstruction

4.8 WiFi-based camera synchronization

5. Conclusion

在本文中，我们提出了一个SynNet，以根据这些视频中 共享的移动主体 对多个运动摄像机视频进行 时间同步 。我们通过识别两个视频之间的潜在时间偏移，将此视频同步问题重新表述为 分类问题 。SynNet 使用深度神经网络结构，从姿势估计子网开始，提取视图不变的姿势特征，然后使用特征聚合模块对其进行编码。来自两个视频的编码要素被组合成一个匹配的成本量，以 遍历所有可能的时间偏移，然后是最终的分类层。对这三个数据集的实验，包括我们所提出的工作收集的两个新数据集，表明使用 姿势特征 比使用 外观和运动特征 可以带来更好的视频同步。