Detect-and-Track: Efficient Pose Estimation in Videos（检测和追踪：视频中有效的姿态评估）论文解读

最新推荐文章于 2021-08-03 18:54:33 发布

酉意铭

最新推荐文章于 2021-08-03 18:54:33 发布

阅读量1.3k

点赞数

分类专栏：人体姿态估计文章标签：姿评

人体姿态估计专栏收录该内容

3 篇文章 0 订阅

订阅专栏

论文链接：https://arxiv.org/abs/1712.09184v1

项目链接：https://github.com/facebookresearch/DetectAndTrack

摘要

文章解决的是复杂场景多人视频的人体关键点评估和追踪。作者提出了一种极其轻量但高效的方法，它建立在最新的人类检测和视频理解。该方法是两阶段方法：1，先在帧或短片上进行关键点估计；2，然后进行轻量级跟踪，以生成链接整个视频的关键点预测。对于帧级的姿态估计，模型中利用了mask rcnn和作者自己的3D 扩展，利用其在小片段上时间信息生成更鲁棒的帧预测。

引言

本工作中，作者关注的是复杂视频中的人体姿态追踪问题，这需要随时间追踪并评估每个人体实例的姿态。文中通过借助新颖的3D CNN架构整合来自相邻视频帧的时间信息。其中，关键点估计仍然在帧级进行，通过滑动窗口的形式在短片上进行空时操作。这允许3D模型传播来自前一帧和后一帧的有用信息，以便使每帧中的预测更加健壮，同时使用轻量级模块进行长期跟踪，使提出的方法适用于任意长的视频。

首先，为了方便有效，作者建立了一个具有竞争力的baseline 方法，该方法将从Mask RCNN中获得的帧级预测连接起来。然后，作者提出了一个Mask RCNN的3D扩展，它利用了短片的时间信息来在单帧上生成更加鲁棒的预测。

技术方法

二阶段方法，通过扩展Mask RCNN来建立一个3D人体姿态预测器，通过将2D卷积膨胀为3D来进行时空操作。模型的输入是一些短片段和短片中整合了时间信息的所有人的预测姿态。实验表明对姿态评估任务作者的3D模型优基于帧级的3D baseline。为了随时追踪实例作者把这些预测链接起来执行轻量级的优化。

姿态追踪的两阶段方法

阶段1：短片上时空姿态评估

为了进行人体关键点追踪，一阶段是基于CNN模型的姿态评估。由于Mask RCNN简单鲁棒，作者采用它进行帧级的姿态评估。Mask RCNN是从faster RCNN目标检测框架扩展的自上而下的关键点评估模型，它由标准的CNN(通常是ResNet)提取特征，然后送入指定任务的小神经网络RPN，通过RoIAlign操作后进行分类或预测mas/pose。作者受到当前I3D（参考文献5）的行为识别方法，其中介绍了一种视频模型，该模型是通过将其2D卷积核膨胀为3D把一个最好的图像识别模型转化为视频模型。类似的，作者从Mask RCNN开始将2D卷积转化为3D卷积。注意：3D核的感受野包括时间和空间的维度并以端到端可学习的方式整合时空线索。所以现在，模型的输入不再是一个单帧，而是由来自视频相邻帧组成的长度为T的短片。作者扩展了RPN网络，以预测输入短片的跨帧追踪假设候选对象。这些管道提案（tube proposals）通过时空RoIAlign操作进行指定的实例特征提取。然后特征喂入负责姿态评估的3D CNN头。该姿势估计头输出针对管假设的所有帧上的所有关键点的热图激活。因此，作者的3D Mask R-CNN的输出是一组具有关键点估计的管假设。3D Mask RCNN架构如下图：

3D Mask RCNN架构主要包含：base network，TPN，3D Mask RCNN heads三部分

1，base network

base network用来提取特征，backbone是把标准的ResNet结果扩展为一个3D ResNet结构，通过把2D卷积替换为3D卷积完成。作者设置，除了第一个卷积层，设置内核的时间范围KT以匹配空间宽度，滤波器尺寸为3*7*7。对于空间维度根据情况填充卷积。KT=3时，用1进行卷积填充，KT=1时，用0 进行填充。（填充应该是为了得到同等尺寸的特征图）。stride设置为1,因为根据经验发现stride过大会导致性能下降。用一个预训练的2DResNet初始化3DResNet。实验中尝试了均值（mean）初始化和中心（center）初始化。在中心初始化中，作者使用2D滤波器权重初始化3D内核的中心2D切片，并将所有其他2D切片（对应于时间位移）设置为零。4.3中的实验表明，中心初始化能够获得更好的性能。最终，3D base network输入一个T*H*W的短片，对应输出为T*H/8*W/8的特征图，因为在第四个残差块后对网络进行裁剪（类似下采样）并执行时间跨步（应该是在时间维度上滑动）。

2，TPN（管提案网络）

作者受到faster RCNN中的RPN启发，设计了一个TPN(管提案网络)。对于给定的base network输出的特征图，用一个小的3D卷积网络滑动连接到两个并行全连接层——管分类和回归。分类和回归的标签在对应的(管)tube anchotrs定义，tube anchors 类似于Faster RCNN中的bbox anchors，但在这里在时间上进行复制。在每个滑动位置采用A个（通常是12）不同的anchors，具有不同的scale和aspect ratio，所以总共有H/8*W/8*A个anchors。对每个anchor进行二值预测判断原始空间位置的前景管是否和提案管具有高度重叠（就是判断生成的proposals和ground truth是否高度重叠）。类似地，回归为每个anchor输出一个4维向量，该向量为tube中每个anchor对应的box的位移（偏移）进行编码。对分类层训练采用softmax分类损失，对回归层训练采用平滑L1损失，（和Fast RCNN中的损失一样）。用1/T对回归损失进行缩放，目的是为了保持和2D情况下的损失相当。

3，3D Mask RCNN heads

对TPN产生的tubu 候选，下一步将它们分类并回归到围绕人轨迹的紧密管中（tight tube）。通过设计一个3D区域变换操作为这个tube计算区域特征。特别的，作者扩展了RoIAlign操作以提取base 网络输出的时空特征图。由于特征图的时间扩展和tube 候选是一样的（都是T维），作者把tube切分为T个2D boxes，然后使用RoIAlign从特征图中T个时间切片的每个切片提取region（应该就是提取切片中的有效区域）。然后这些region在时间上连接起来生成一个T*R*R的特征图。其中R是RoIAlign操作输出分辨率，对分类/回归头保留为7，对关键点头保留为14。分类头由一个3D ResNet块组成，类似于base network设计的3D ResNet块。关键点头由8个卷积层组成，后面接着两个解卷积层以为每个时间帧输入生成关键点热力图。分类头训练采用softmax损失，回归头采用平滑L1损失（还是和Fast RCNN的损失一样），关键点头采训练采用一个空间softmax损失，类似Mask RCNN。

阶段2：把关键点预测连接成为轨迹

之前的轨迹被看做是在这个检测上的数据关联问题。先前的方法对这个任务建模为二分匹配问题，可以利用匈牙利算法或者贪婪算法完成。最近的研究对轨迹特征的时间评估建模采用深度循环神经网络，例如LSTM完成。作者使用类似的策略，在每一帧图中每个检测box(表示一个人)表示成为一个节点。作者定义边以将帧中的每个框连接到下一帧中的每个框。每个边缘的成本被定义为在该边缘上链接的两个框属于同一个人的负面可能性。实验中尝试了手工制作和可学习的可能性指标。给定这些似然值，作者通过将问题简化为每对相邻帧之间的二分匹配来计算轨道。作者初始化第一帧上的轨道并使用匹配向前传播标签，一次一帧。任何未与现有轨道匹配的框都会实例化新轨道。这个简单的方法非常有效，具有高度扩展性，也能够处理不同数量人的假设还能够在任意长的视频上运行。

可能性指标

对轨迹连接采用了手工制作和可学习可能性两个指标进行了大量实验。对手工制作的特征，实验了1）视觉相似性，定义为从检测所代表的图像块中提取的CNN特征之间的余弦距离；2）位置相似性，定义为两个检测框的交并比（IoU）；3）姿态相似性，定义为两帧中姿势之间的PCKh 距离（参考文献53）。对于可学习相似性，作者还尝试了基于LSTM模型的学习距离度量，该模型结合了跟踪历史来预测新检测是否是轨道的一部分。在测试时，在匹配算法中使用预测置信度值，并且匹配检测用于更新LSTM隐藏状态。

实验

数据集和评估

PoseTrack是最近发布的各种户外人体关键点评估和追踪啦规模挑战视频数据集。它包括总共514个视频序列和66,374帧，划分为300,50和208个视频，用于训练，验证和测试。训练视频的中间30帧用人体关键点密集标记。除了中间的30帧之外，验证和测试视频每隔四帧标记一次。这有助于评估方法的长期跟踪性能，而无需在整个视频中使用昂贵的注释。总的来说，数据集包含23,000个标记帧和153,615个姿势。支持测试集注释，并通过将预测提交给评估服务器来执行评估。注释包括人头部边界框和每个标记人的15个身体关节关键点位置（比COCO的数据集节点少）。由于我们提出的所有方法都是自顶向下的，并且取决于在检测关键点之前检测人的范围，我们通过获取标记关键点的最小和最大范围并将该框扩展20％来计算边界框。此外，为了使数据集与COCO [35,36]兼容，我们将关键点标签置换为匹配COCO中最接近的等效标签。这使我们能够在COCO上预先训练我们的模型，显着增加PoseTrack数据集并大大提高性能。这个数据集为三个不同的任务设计了评估方法：1）单帧姿态评估；2）视频中姿态评估；3）野外姿态追踪。任务1和2在帧级评估，采用mAP，任务3利用多目标追踪指标（MOT,参考文献3）两种评估都需要首先计算每个预测距离标记为姿势的每个地面实况的距离。这是使用PCKh度量完成的，它计算由头部大小标准化的正确关键点的概率。

各种实验结果

改变阈值的影响：上表 ——检测阈值的影响，在将它们与计算轨道匹配之前，对Mask R-CNN计算的检测进行阈值处理。随着关键点mAP下降，轨迹MOTA指标上升，因为这样有更少的可疑检测混淆检测器。第一行展示了随机baseline,既对每个检测模型的性能随机分配一个0-1000的轨迹ID

更深的网络改善性能，把base网路的ResNet50替换为ResNet101获得了2个点MOTA指标性能提升，base网络采用FPN进一步提升性能。最终最好的性能采用的是，ResNet101+FPN作为主体，一个2层的MLP作为分类头，堆叠8个卷积和解卷积层作为关键点头。

更多实验结果参看论文。。。。

酉意铭

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
Detect-and-Track: Efficient Pose Estimation in Videos（检测和追踪：视频中有效的姿态评估）论文解读

论文链接：https://arxiv.org/abs/1712.09184v1项目链接：https://github.com/facebookresearch/DetectAndTrack摘要文章解决的是复杂场景多人视频的人体关键点评估和追踪。作者提出了一种极其轻量但高效的方法，它建立在最新的人类检测和视频理解。该方法是两阶段方法：1，先在帧或短片上进行关键点估计；2，然后进行轻...
复制链接

扫一扫