姿态估计——LightTrack：A Generic Framework for Online Top-Down Human Pose Tracking

最新推荐文章于 2024-05-30 09:55:47 发布

乐亦亦乐

最新推荐文章于 2024-05-30 09:55:47 发布

阅读量914

点赞数 1

分类专栏：论文阅读文章标签：深度学习

本文链接：https://blog.csdn.net/qq_41251963/article/details/110306081

版权

论文阅读专栏收录该内容

44 篇文章 3 订阅

订阅专栏

论文提出了LightTrack，一个在线、自上而下的轻量级多目标姿态跟踪框架。该框架结合了YOLOV3目标检测、CPN_res101等关键点检测和SGCN人体姿势匹配，通过图卷积网络进行姿态匹配作为Re-ID模块。LightTrack在保持高帧率的同时，优于其他在线方法，对离线方法具有竞争力。

摘要由CSDN通过智能技术生成

论文地址：https://arxiv.org/pdf/1905.02822.pdf

github地址：https://github.com/Guanghan/lighttrack

论文提出了轻量级的多目标跟踪框架LightTrack。包含YOLOV3的目标检测，基于CPN_res101，MSRA152，mobile_deconv这3个网络种任意一个的关键点检测，基于SGCN的人体姿势匹配。整体结构是一种自上而下的结构。

主要贡献：

提出了一个通用的基于自上而下的骨架跟踪框架。
提出了SGCN作为一个REID模块进行姿势跟踪。
根据各种不同的设置进行了大量的实验。

Abstract

在本文中，我们提出了一种新的有效的轻量级框架，称为LightTrack，用于在线人体姿态跟踪。所提出的框架被设计为用于自顶向下姿态跟踪的通用框架，并且比现有的在线和离线方法更快。单人姿势跟踪(SPT)和视觉对象跟踪(VOT)被合并到一个统一的功能实体中，很容易由一个可替换的单人姿势估计模块实现。我们的框架将单人姿态跟踪与多人身份关联结合起来，并首先揭示了将关键点跟踪与目标跟踪连接起来的问题。在姿态跟踪系统中，我们还提出了一种用于人体姿态匹配的图卷积网络(SGCN)作为Re-ID模块。与其他Re-ID模块相反，我们使用人类关节的图形表示进行匹配。基于骨架的表示有效地捕捉了人类姿态的相似性，并且在计算上是廉价的。它对引入人类漂流的突然相机移位具有很强的鲁棒性。据我们所知，这是第一篇以自上而下的方式提出在线人体姿态跟踪框架的论文。所提出的框架足够通用，以适应其他姿态估计器和候选匹配机制。我们的方法优于其他在线方法，同时保持更高的帧速率。

1.Introduction

姿态跟踪是估计视频中多人的姿态，并为跨帧的每个关键点分配唯一的实例ID的任务。准确估计人类的关键点-轨迹对于人类的动作识别、人类互动理解、运动捕捉和动画等都是有用的。最近，公开可用的PoseTrack数据集[18,3]和MPII Video Pose数据集[17]将人类运动分析的研究推向了其现实世界场景的一步。两个Pose Track挑战已经举行。然而现存大多数方法都属于离线方法，缺少实时性。与帧每秒(FPS)标准相比，多目标跟踪精度（Multi-Object Tracking）标准得到了更多的强调。现有的离线方法将人类检测、候选姿态估计和身份关联的任务分为顺序阶段。在这个过程中，多人的姿势是在视频中跨帧估计的。基于姿态估计结果，通过求解优化问题计算姿态跟踪输出。它要求预先计算未来帧的姿态，或者至少对于某些范围内的帧。

在本文中，我们提出了一种新的有效的轻量级框架姿态跟踪。它被设计成通用的、自顶向下的（即，姿态估计是在检测到候选者之后执行的），并且是在线的。该框架将单人姿态跟踪与多人身份关联相结合。它首先揭示了将关键点跟踪与目标跟踪连接起来。据我们所知，这是第一篇以自上而下的方式提出在线姿态跟踪框架的论文。所提出的框架足够通用，以适应其他姿态估计器和候选匹配机制。因此，如果未来进一步改进单个组件，我们的框架将更快和/或更准确。与Visual Object Tracking(VOT)方法相反，在这种方法中，视觉特征由内核或CNN特征图隐式表示，我们通过递归地更新包围框及其相应的姿态来跟踪每个人的姿态。目标的bounding box区域是从显式特征，即人类关键点推断出来的。人的关键点可以看作是一系列特殊的视觉特征。使用pose作为显式特征的优点包括：1）明确的特征与人有关，可解释，与bounding box位置有非常强和稳定的关系。人体姿态对bounding box区域施加直接约束。2)姿态估计和跟踪任务首先需要预测人的关键点。利用预测的关键点是有效的跟踪ROI区域。这种机制使在线跟踪成为可能。自然的保留了候选的身份，大大减轻了系统中数据关联的负担。即使数据关联是必要的，我们也可以重用基于骨架的姿态匹配的姿态特征。因此，单姿态跟踪(SPT)和单视觉对象跟踪(VOT)被合并到一个统一的功能实体中，很容易由一个可替换的单人人体姿态估计模块实现。因此，单姿态跟踪(SPT)和单视觉对象跟踪(VOT)被合并到一个统一的功能实体中，很容易由一个可替换的单人人体姿态估计模块实现。

我们的贡献有三个方面：（1）我们提出了一种通用的在线姿态跟踪框架，适用于自顶向下的人体姿态估计方法。人体姿态估计器和Re-ID模块都是可替换的。与多目标跟踪(MOT)框架相比，我们的框架是专门为姿态跟踪任务设计的。据我们所知，这是第一篇以自上而下的方式提出在线人体姿态跟踪系统的论文。提出了一种用于人体姿态匹配的Siamese Graph Convolution Network (SGCN)作为姿态跟踪系统中Re-ID模块。与现有的Re-ID模块不同，我们使用人类关节的图形表示进行匹配。基于骨架的表示有效地捕捉了人类姿态的相似性，并且在计算上是廉价的。（3）我们对各种环境和消融研究进行了广泛的实验。我们提出的在线姿态跟踪方法优于现有的在线方法，并且对离线状态具有竞争力，但帧速率要高得多。我们公开代码，以促进未来的研究。

2.Related Work

2.1. Human Pose Estimation and Tracking

随着基于CNN的方法的出现，人类姿态估计(HPE)取得了迅速的进展，最广泛使用的数据集，例如MPII[4]和LSP[20]，都充满了达到90%和更高精度的方法。多人姿态估计更具有挑战性。并随着COCO关键点挑战的主办而受到越来越多的关注。现有方法可分为自上而下和自下而上。自顶向下的方法[14,32,15]依赖于检测模块来获得人类候选点，然后应用单人位姿估计来定位人类关键点。自下而上的方法[6,35,30]从所有潜在的候选者中检测人类关键点，然后根据各种数据关联技术将这些关键点组装成每个人的肢体。自下而上的方法的优点是它们在估计精度和计算成本之间有很好的权衡，因为成本与图像中的人类候选数几乎不变。相反，自顶向下的方法的优点是它们能够将任务分解成多个相对容易的任务，即对象检测和单人姿态估计。对象检测器是检测硬（通常是小）候选的专家，因此姿态估计器将在聚焦回归空间中表现得更好。姿态跟踪是一个新的课题，主要由姿态跟踪数据集[18,3]和MPII视频姿态数据集[17]引入。任务是估计人的关键点，并在视频中跨帧的实例级别上为每个关键点分配唯一的ID。在[17]中引入了一种典型的自顶向下但离线的方法，其中姿态跟踪被转化为具有图分区公式的最小成本多割问题。

2.2. Object Detection vs. Human Pose Estimation

先前在对象检测中的工作将视觉特征回归到边界框坐标中。另一方面，HPE通常将视觉特征回归到热图中，每个通道代表一个人的关节。最近，HPE的研究启发了许多关于物体检测的工作。这些工作预测了一组特殊关键点的热图，以推断检测结果（bounding box）。基于这一动机，我们提出了预测人类关键点来推断bounding box区域。人类关键点是一组特殊的关键点，仅代表人类类的检测。

2.3. Multi-Object Tracking

MOT的目的是通过寻找目标位置来估计多个物体的轨迹，同时保持它们在帧之间的身份。离线方法使用过去和未来的帧来生成轨迹，而在线方法只利用在当前帧之前可用的信息。提出了一个在线MOT管道[41]，应用一个单一的目标跟踪器，以保持跟踪每个目标，给定这些目标检测在每个帧。目标状态被设置为跟踪，直到跟踪结果变得不可靠。然后，将目标视为丢失，并执行数据关联来计算轨迹和检测之间的相似性。我们提出的在线姿态跟踪框架还分别跟踪每个目标（具有相应的关键点），同时保持它们的身份，并在目标丢失时执行数据关联。然而，我们的框架在几个方面是不同的：(a)检测仅在关键帧由物体检测器产生，因此不一定在每个帧提供。(b)单个物体跟踪器实际上是一种姿态估计器，根据扩大的区域预测关键点。

2.4. Graphical Representation for Human Pose

最近[38]研究了如何用一个专门定制的图形卷积操作有效地建模动态骨架。图卷积运算将骨架转化为人的行为的时空表示。在这项工作的启发下，我们提出使用GCN将人类关节之间的空间关系编码成人类姿态的潜在表示。表示的目的是鲁棒编码姿态，这是不变的人的位置或视角。我们测量这种编码的相似性，以匹配人类的姿势。

3.Proposed Method

3.1. Top-Down Pose Tracking Framework

我们提出了一种新的自顶向下姿态跟踪框架。事实证明，人体姿态可以更好地推断人体位置。我们观察到，在自上而下的方法中，精确的人体位置也可以方便地估计人体的姿势。我们进一步研究这两个层次信息之间的关系：（1）粗略的人体位置可以通过单人姿态估计器提取身体关键点实现。（2）人体关节的位置可以直接用来表示人体候选物的大致位置。（3）因此，不断地从另一个中估计一个是单人姿势跟踪(SPT)的可行策略)。然而，仅仅将多目标姿态跟踪(MPT)问题视为多个人重复的SPT问题并不是一个好主意。因为需要满足某些约束条件，例如在某个框架中，两个不同的ID不应该属于同一个人；两个候选人也不应该有相同的id。一个更好的方法是同时跟踪多个个人，并使用额外的Re-ID模块保存/更新他们的身份。Re-ID模块是必不可少的，因为它通常很难始终保持正确的身份。它不太可能有效地跟踪个人的姿态跨帧的整个视频。例如，在下列情况下，必须更新身份：（1）有些人从镜头中消失或被遮挡；二）新候选人出现或者以前的候选人重新出现。（三)人与人之间互相走动(两个身份如果不仔细处理，可以合并为一个）；四）由于摄像机的快速移动或者放大，造成跟踪失败。

在我们的方法中，我们首先分别对待每个人类候选人，以便他们的相应身份被保存在整个框架中。这样，我们就规避了耗时的离线优化过程。 如果跟踪候选由于遮挡或摄像机移位而丢失，我们然后调用检测模块来恢复候选，并通过姿态匹配将它们与前一帧中的跟踪目标关联起来。利用SPT模块和姿态匹配模块实现多目标姿态跟踪。具体来说，即将到来的帧中的人的bounding box 是从姿态模块从当前帧估计的关节推断出来的。我们找到最小坐标和最大坐标，并将这个ROI区域每边放大20%。放大的bounding box 被视为下一帧中此人的局部区域。如果从估计的关节的平均置信度分数 s低于标准Ts，则反映目标丢失，因为关节不太可能出现在bounding box区域。

如果目标丢失，我们有两种模式：

(1) Fixed Keyframe Interval (FKI) 忽略这个目标，直到预定的下一个关键帧，其中检测模块重新生成候选对象，然后将它们的ID与跟踪历史记录相关联。

(2) Adaptive Keyframe Interval (AKI) 通过候选检测和身份关联立即恢复丢失的目标。

由于关键帧的固定间隔，FKI模式的优点是姿态跟踪的帧速率是稳定的。AKI模式的优点是，对于非复杂视频，平均帧速率可以更高。在我们的实验中，我们通过使用具有固定间隔的关键帧来合并它们，同时一旦目标丢失，在下一个关键帧之前调用检测模块。跟踪精度更高，因为当目标丢失时，它会立即处理。

对于身份关联，我们提出考虑两个互补信息：空间一致性和姿态一致性。我们首先依赖于空间一致性，即如果来自当前和前一帧的两个边界框是相邻的，或者它们的交并比(IOU)超过一定的阈值，我们认为它们属于同一个目标。具体来说，如果跟踪目标tk∈Tk与对应的关键帧k的检测dk∈Dk之间的最大IOU o(tk，Di,k)高于阈值τo，我们将匹配标志m(tk，dk)设置为1。否则m(tk，dk)设置为0：

上述准则是基于这样的假设，即从前一帧跟踪的目标与当前帧中目标的实际位置有显著的重叠，这在大多数情况下是正确的。然而，这种假设并不总是可靠的，特别是当相机快速移动时。在这种情况下，我们需要匹配新的观察跟踪的候选人。在Re-ID问题中，这通常是由视觉特征分类器完成的。然而，具有不同身份的视觉相似的候选者可能会混淆这种分类器。在在线跟踪系统中提取视觉特征在计算上也很昂贵。因此，我们设计了一个图卷积网络(GCN)来利用人体关节的图形表示。我们观察到，在两个相邻的帧中，一个人的位置可能会因为突然的相机移位而漂移，但人类的姿态将保持几乎相同，因为人们通常不能动作那么快，如图2所示。因此，人类骨骼的图形表示可以成为候选匹配的有力线索，我们在下面的文本中称之为姿态匹配。

3.2. Siamese Graph Convolutional Networks

Siamese Network ：以二维坐标的形式给出了人体关节序列，构造了一个以关节为图节点的空间图，以人体结构中的连接性为图边。我们的图卷积网络的输入是图节点上的联合坐标向量。它类似于基于图像的CNN，其中输入是由驻留在二维图像网格上的像素强度向量形成的。在输入上执行多个图卷积，以生成一个特征表示向量作为人类姿态的概念摘要。它内在地编码了人类关节之间的空间关系。因此，孪生网络（Siamese Network）的输入是GCN网络的一对输入。两个输出特征之间的距离表示两个姿态之间的相似程度。两种姿势如果在概念上相似，就称为匹配。网络如图3所示。Siamese由2个GCN层和1个卷积层组成，采用contrastive loss。我们以归一化的关键点坐标作为输入；输出是128维特征向量。网络是用对比损失L进行优化的，因为我们希望网络生成特征表示，这些特征表示对于正对来说足够接近，而对于负对来说，它们至少是最小的。

Graph Convolution for Skeleton:对于自然图像上的标准2D卷积，输出特征映射可以与具有步长1和适当填充的输入特征映射具有相同的大小。同样，图卷积运算被设计成输出相同数量的图结点。这些节点的属性的维数，类似于标准卷积中特征映射通道的数量，在图形卷积操作之后可能会发生变化。标准卷积运算定义如下：给定核大小为K×K的卷积核和通道数为c的输入特征图，空间位置x处单个通道的输出值可以写成：

图上的卷积运算是通过将上述公式扩展到输入特征图驻留在空间图Vt上的情况，即。特征映射f in：Vt→Rc在图的每个节点上都有一个向量。扩展的下一步是重新定义采样函数p和权重函数w。我们遵循[38]中提出的方法。对于每个节点，只对其相邻节点进行采样。节点Vi的邻居集是

。采样函数p

可以被写为

这样，相邻节点的数目不是固定的，也不是加权顺序。为了有固定数量的样本和固定的加权顺序，我们用固定数量的分区标记根节点周围的邻居节点，然后根据它们的分区类对这些节点进行权重。具体的划分方法如图4所示。

其中规范化项， Z i( v j ) = | { v k | l i( v k) = l i( v j ) } |，是平衡不同子集输出的贡献。根据上述划分方法，我们有：

其中ri是训练集中所有帧上从重心到关节i的平均距离。

4.Experiments

5.Conclusions

在本文中，我们提出了一个有效和通用的轻量级框架在线人体姿态跟踪。我们还提供了一个使用该框架的基线，并在我们的姿态跟踪系统中提出了一个用于人体姿态匹配的图卷积网络（siamese）作为Re-ID模块。基于骨架的表示有效地捕捉了人类姿态的相似性，并且在计算上是廉价的。我们的方法明显优于其他在线方法，并且与离线最先进的方法非常有竞争力，但帧速率要高得多。我们认为所提出的框架由于其优越的性能、通用性和可扩展性而值得广泛使用。

乐亦亦乐

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
姿态估计——LightTrack：A Generic Framework for Online Top-Down Human Pose Tracking

论文地址：https://arxiv.org/pdf/1905.02822.pdfgithub地址：https://github.com/Guanghan/lighttrack论文提出了轻量级的多目标跟踪框架LightTrack。包含YOLOV3的目标检测，基于CPN_res101，MSRA152，mobile_deconv这3个网络种任意一个的关键点检测，基于SGCN的人体姿势匹配。整体结构是一种自上而下的结构。主要贡献：提出了一个通用的基于自上而下的骨架跟踪框架。提出了SGCN.
复制链接

扫一扫