论文笔记-Tracking Emerges by Colorizing Videos

最新推荐文章于 2023-01-14 18:24:33 发布

楚沐向阳

最新推荐文章于 2023-01-14 18:24:33 发布

阅读量1.9k

点赞数 2

分类专栏：论文笔记文章标签：计算机视觉

论文笔记专栏收录该内容

10 篇文章 0 订阅

订阅专栏

1. 介绍

可视化追踪是视频分析中不可缺少的一部分。然而，为了提高表现而收集大量的数据会花费很高的代价，并不实际。因此，本文提出了一种在大量原始无标签数据上进行追踪的方法。

我们将视频着色视为一种自监督学习问题。这种方法并不是直接预测灰度级视频帧的指定区域的颜色，而是学习将一个彩色参考帧的指定区域与一个灰度帧的区域建立联系，然后将参考帧指定区域的颜色复制到灰度帧的相应区域。这是一种迂回的方式，需要模型从内部学习如何从参考帧的指定区域指向灰度帧的相应区域，以此来复制颜色。下图展示了这种问题：
这里写图片描述
实验表明，尽管在训练网络时没有真实的标签，但是追踪的机制自动的出现了。在网络上收集的数据进行训练后，模型可以追踪在视频第一帧中指定的任一分割区域，同样可以追踪在初始帧中给予关键点注释的人类姿态。

这篇论文的贡献主要是学习着色视频会导致追踪的出现。

2. 相关工作

自监督学习

我们提出了一种自监督模型，关注在视频中对人体姿态进行可视化追踪。我们的模型直接在自然数据上进行训练，没有使用计算机生成的图形。

着色

对灰度级图像进行着色的任务已经成为计算机视觉社区的一个有意义的研究课题。出了给图像着色的核心问题，着色已经显示在无监督情况下学习图像表征的意义。在这篇论文中，我们通过学习视频着色任务来学习追踪。

视频分割

视频分割的方法有很多种，但是可以总的分为是否以感兴趣的一个对象开始。这个任务很具有挑战性，现在最先进的方法都是使用大量的监督数据来达到最好的结果，例如数据来自ImageNet，MS-COCO，DAVIS。我们使用没有标签的视频来学习追踪。

使用标签数据进行追踪

我们发现有一个自监督学习问题，可以引导模型去自动学习追踪，因此，我们不仅仅是要手工设计一个目标追踪模型。我们的模型是一个通用的追踪方法，可以应用到多种视频分析问题中，，而不仅限于视频分割。我们训练好的模型可以用于追踪分割，追踪关键点，着色视频，以及从视频的第一帧到后面所有帧的迁移注释。更重要的是，我们的模型很快，追踪多个对象且不需要在测试帧上进行训练，这使得我们的模型可以应用于大规模视频分割任务。

关于术语的注意事项

在对象追踪文献中有一些分歧，我们想要阐明我们的命名法。在追踪领域中，有liang
两个通常的任务。在任务A中，我们给视频的第一帧标注标签。在任务B中，我们不给视频的第一帧标注标签。在很多文献中将任务A称为半监督，将任务B称为无监督。令人困惑的是，在两种情况下，你都可以使用监督数据进行训练。在我们的论文中，我们的目标是从没有标签的视频中进行学习。在测试时，我们使用任务A的数据形式，即指定感兴趣的区域进行追踪。

3. 自监督追踪

我们首先描述一下如何训练我们的模型用于视频着色，然后讨论怎样使用训练好的模型进行追踪。下图展示了我们的模型：
这里写图片描述

3.1 模型

让这里写图片描述为参考帧中di个像素的真实颜色，为目标帧中第j个像素的真实颜色。我们用y_j作为对c_j的预测。y_j定义为：

其中A是目标和参考帧之间的相似矩阵，因此每一行的元素和为1。A中的每一个元素定义为：

其中f_i是第i个像素的低维度embedding，由卷积神经网络得出。因为我们需要计算所有参考和目标对的距离，所以相似性矩阵可能会很大。然而，因为颜色是相对低的空间频率，我们可以在较低分辨率的视频上来进行训练，同时允许我们计算和存储所有的参考和目标对数据。

注意到，在颜色空间的相似性并不代表embeddings就是相似的。由于softmax层的存在，模型只需要指向一个参考像素来复制颜色。所以，如果有两个对象具有相同的颜色，模型并不限制它们具有相同的embedding。这一特性使得模型可以追踪多个具有相同颜色的对象。

3.2 学习

我们的方法假设在训练中视频的颜色是暂时稳定的。虽然有时有颜色灯的打开和关闭会影响颜色的稳定性，但是我们的数据都是来自网上的公开视频，所以它们都具有颜色暂时稳定性。下图展示了在Kinetics视频集上的一些视频的颜色一致性。
这里写图片描述
我们使用很大的无标签数据集来学习模型。我们训练模型的参数，来使得下面的损失函数最小：

视频着色是多模态问题，所以使用交叉熵作为损失函数。我们使用k-means方法在整个数据集上聚类颜色通道（使用16个类）。我们使用随机梯度下降法来优化损失函数。

3.3 推断

我们以两种典型的任务来说明如何使用这个模型。

分割追踪

为了追踪分割，重新将这里写图片描述定义为一个向量，表示d个分类的可能性。d可以在学习和推断过程中改变。在分割中，类别的个数与实例的个数相关。我们将北京作为另一个类别。初始帧的标签c_i是一个one-hot向量，预测c_j表示模型的置信度。

关键点追踪

不像颜色和分割是密集表征，关键点通常是稀疏表征，但是我们的模型同样可以追踪它们。我们将关键点转化成密集表征，其中这里写图片描述是一个二进制向量，表示一个关键点是否位于像素I的位置上。在这种情况下，d表示初始帧中关键点的数量。

调整T

我们在计算y_j时，对于参考帧中所有的标签采用了平均权重。如果pointer不够自信，这会导致模糊的预测。为了补偿这个，在推断过程中，我们简单的用pre-softmax激活除以一个常数T。当T=1时，softmax没有改变。我们发现将T设为0.5，模型推断的表现很好。

可变长度的视频

在推断过程中，我们仍需要处理长视频。我们采用了一个递归的方法，我们每次只向后传播3帧的视频，如此循环进行。

3.4 实施细节

我们使用3-D的卷积网络来生成64维的embeddings。我们将每一输入帧进行下采样，得到32*32的特征映射，用来预测。在每一输入帧上使用ResNet-18的网络架构，后面接一个5层的3D卷积网络。

模型的输入是4帧灰度级视频，下采样到256*256。我们使用前三帧作为参考帧，第四帧作为目标帧。我们预处理了输入，将像素值限定在[-1, 1]范围内，均值接近0。在训练过程中，我们使用6fps的帧率，在推断过程中使用全帧率。为了量化颜色空间，我们将训练集中的视频转换到Lab空间，取每一个像素的ab颜色通道，然后使用k-means方法进行聚类。我们用一个one-hot向量来表示每一个像素的颜色。

我们的模型训练400000次。batch_size为32，采用Adam优化器。前60000次迭代的学习率为0.001，后面的迭代将学习率降低到0.0001。模型用高斯噪声随机初始化。