Merging Pose Estimates Across Space and Time论文解析

最新推荐文章于 2024-10-05 19:36:33 发布

不造木木

最新推荐文章于 2024-10-05 19:36:33 发布

阅读量1.3k

点赞数 1

文章标签：深度学习机器学习神经网络

本文链接：https://blog.csdn.net/m0_45850873/article/details/113786117

版权

姿态估计非极大值抑制多帧融合鲁棒聚类视频分析

关键词由CSDN通过智能技术生成

Merging Pose Estimates Across Space and Time论文解析

简介

简介

Merging Pose Estimates Across Space and Time字面意思：在空间和时间上合并姿态估计，文章的主要贡献是提出了Pose-NMS框架，基本思想是通过聚类得到最终姿态，下面将按照论文的顺序进行详细介绍。（注：本文只供学习讨论，不做商业用途，建议大家去官网下载原文阅读，本文观点只是个人学习中的感悟，如果您有更好的想法或者发现错误请私信我交流，或在评论区分享您的观点）

在这里插入图片描述
合并目标检测框采用多种NMS作为目标检测的后处理方案，我们提出了一种NMS的泛化方法，可以在单帧中合并多个姿态估计，在 standard NMS中最后的估计不是medoids而是centroids，因此比任何单独的候选区都精确，采用相同的数学框架，我们将我们的方法扩展到多帧设置，合并跨空间和时间的多个独立姿势估计，并输出场景中对象的数量和姿势。我们的方法避开了与完全跟踪相关的许多固有挑战（例如，物体进入/离开场景、长时间遮挡等）。为了证明方法的通用性，我们将其应用于人体、人脸和小鼠三个领域的两种最新姿态估计算法，我们的方法提高了检测精度（通过消除相似）和姿态估计质量，并且计算效率高

思想来源：目标检测中的 NMS ；
创新： standard NMS ，最后估计出的是centroids，精确度提高，可以跨空间和时间合并，输出场景中对象的数量和姿势；
不足：避开了许多固有挑战物体进入/离开场景、长时间遮挡 等；
优点：通用性强，检测更精确，提高了姿态估计质量，计算效率高 功能；

1 引言

在这里插入图片描述

精确的视频姿态估计是动作识别【6，23】、运动捕捉【20】、与人机交互【21】等应用的关键。这里的姿势是指模型的参数，它描述了图像中物体的结构，或图像中物体的坐标位置。
数据驱动的姿态估计方法越来越成熟，在许多识别任务中取得了令人惊叹的效果【7, 13, 25, 26】，这些方法输出一组姿势估计，通过“非极大值抑制”（NMS）技术来合并相似目标检测。NMS是可以有效合并目标检测产生的多余边界框【9，11】，然而，目前还不能将其应用到姿态估计。如【25，26】中所述，只是将标准NMS单独应用于每个关节位置，效果并不理想。

大意：NMS不能直接用于姿估计
在这里插入图片描述
第一个贡献：提出在单帧中合并多姿态估计的框架。是目标检测NMS的衍生物。该框架适用于大部分姿态估计方法而且可以提高精度，比较通用。通过鲁棒平均来实现，解决多目标姿态估计之间的对应问题。
第二个贡献：用相同的数学框架把我们的方法应用到多帧连续检测，进一步提高姿态估计。该方法受到了“‘tracking by detection”方法的启发，但回避了许多固有挑战（例如，物体进入或离开场景，长时间的遮挡等）。我们的方法可以跨空间和时间合并多姿态估计，输出场景中对象的数量和姿态，参见图1。

大意：本文两个贡献，第一：单帧合并姿态的框架。第二：多帧合并姿态
在这里插入图片描述利用统一的优化框架，我们得到了一个高效的方法，可以有效估计短视频（每帧具有相同对象且连续）的姿态。Pose-NMS不依赖选取的姿态估计方法，任何逐帧的姿态估计方法都可以使用Pose-NMS。
我们将姿势NMS应用于两种不同的最新姿势估计方法来展示姿势NMS的普适性：DPM[25]和CPR[7,13]。我们从包含三种不同对象类型的场景中收集了1000多个视频短片，用三个任务检测我们的方法。三个任务：人体姿态估计，人脸定位估计和动物姿态估计。与标准技术相比，Pose-NMS在三种情况下都提高了检测精度和姿态估计质量。我们的方法代码可以在线上获得。

大意：将Pose-NMS应用于DPM和CPR姿态检测，利用人体姿态估计，人脸定位估计和动物姿态估计验证Pose-NMS的效果，简单说就是想让你知道Pose-NMS为啥牛逼。

1.1相关工作

在这里插入图片描述之前的视频估计可以划分为两大类：（1）将跟踪和姿态估计直接耦合在一起。（2）先逐帧估计姿态和随后在帧之间执行时间平滑。

第一类方法，主要用于无标记人体运动捕捉和多个摄像机的三维姿态估计[20]。例入参考文献[22]通过a factored-state Hierarchical HMM同时执行跟踪和姿势估计，或[18]通过Viterbi-style maximum likelihood方法结合运动模型和观察对象，来集成单帧姿势恢复和时间积分的方法。这些方法不易推广到其他姿态估计任务。
第二类方法，使用于单目视频的标准二维姿态估计，通过加强帧间的时间连续性，将单帧图像检测方法扩展到视频。通过单帧检测计算出在一段时间内连续的物体轨迹[1，2，3，5，8]。检测跟踪是一种非常有效的跟踪方法，但无法扩展到姿态参数化。

大意：两类方法都有缺陷

2 提出方法

在这里插入图片描述现在详细描述我们的方法，给定一个包含T帧的视频，将姿态检测应用于从第一帧到第T帧的每一帧，并返回姿态估计 $\Chi^t=\{x_1^t,...,x_{n^t}^t|x_i^t \in\R^D\}$ 和相应的置信度 $S^t=\{s_1^t,...,s_{n^t}^t|s_i^t \in\R^D\}$ , $n^t$ 是在第t帧估计出的目标数， $x_i^t$ 用D维参数化，D维度因任务而异，可能包括角度值。我们的目标是计算出每一帧中原始姿态的轨迹 $Y^t=\{y_1^t,...,y_K^t|y_k^t \in\R^D\}$ ,并且进行时间平滑，K是需要估计的对象数。

大意：介绍各个参数的含义 $\Chi^t$ 就是t帧画面中经过目标检测出的边界框，同一个目标会有许多边界框， $n^t$ 是边界框的总数， $S^t$ 是每个边界框的置信度，置信度越高的框越准确， $Y^t$ 是画面中每个对象的最后姿态。

2.1单帧

在这里插入图片描述我们开始讨论如何合并t帧内的多个姿态，假设目标总数K是已知的，该方法的核心是将问题看作原始姿态的鲁棒聚类，对每个物体的姿态进行更精确的估计。
设d(x,y)=||x-y|| $_2^2$ 为欧氏距离的平方。在t帧中给定 $\Chi^t$ 和 $S^t$ ,定义 $Y^t$ 的损失函数为：
$L_{space}(Y^t)=\frac{1}{S^t}\displaystyle\sum_{i=1}^{n^t}\min\limits_kd(x_i^t,y_k^t)s_i^t$ , $\quad where S^t=\displaystyle\sum_{i=1}^{n^t}s_i^t$

大意：提出损失函数 $L_{space}$
在这里插入图片描述 $L_{space}$ 使 $y_k^t接近x_i^t$ ,损失函数 $L_{space}$ 的缺点是: $y_k^t$ 可以体现相距较远的姿态 $x_i^t$ （换句话说，相距较远的 $x_i^t$ 会影响 $y_k^t$ ）， $y_k^t$ 应该体现与目标相近的大部分检测结果，而不是相距较远的某几个姿态，通过定义有界距离度量我们将损失函数优化为 $d_{bd}(x,y)=min(z,||x-y||_2^2)$ , $d_{bd}$ 是平方欧氏距离的变形，不同点是它有最大值z，最后损失函数为：
$L_{space}(Y^t)=\frac{1}{S^t}\displaystyle\sum_{i=1}^{n^t}\min\limits_kd_{bd}(x_i^t,y_k^t)s_i^t$
这个函数跟上面的很像，唯一的不同在于是 $d_{db}$ 不是d，现在，一旦 $x_i^t$ 离 $y^t$ 特别远，它只会得到最大惩罚z而不会影响 $y_k^t$ ，常数z取决于实际应用。实际上我们总是将z设为以像素为单位的对象平均宽度。
大意：欧式距离的平方d的缺点是会考虑一些细枝末节的东西，就像是修剪树枝，只需要留下来主干，剪掉细枝末节不影响树的形状，但是留下它们会影响模型树干的泛化能力，也就是来年春天的树还是只能和今年一摸一样，限制了树的发展，所以为了更好的提取树干姿态，提出了 $d_{db}$ ，它把树干的范围限制在z内，不考虑超出z的细枝末节。
在这里插入图片描述
我们现在直观的感受一下 $L_{space}$ 的优化过程，我们首先看式（1）中损失，这是当k=K并且 $Y^t$ 为中心时（加权）k-均值聚类的损失。如果K已知，可以用加权k-均值为第t帧提供合理的解决方案，但是如果用 $d_{db}$ 代替d，k-均值就不再适用了。
我们为式（2）定义了一个k-均值的简单变形——有界k-均值，为了下面的讨论，我们去掉了上标。在k-means算法的每个阶段，首先确定类的成员关系，然后将每个类中心设置为该类的点的平均值。在标准k-均值中,如果 $d(x_i,y_k)<d(x_i,y_j)，\forall j\not =k$ ，则点 $x_i$ 属于k类。在有界k-均值中，我们用相似的方法，如果 $d(x_i,y_k)<d(x_i,y_j)，\forall j\not =k$ and $d(x_i,y_k)$ ,则点 $x_i$ 属于k类。

大意：提出了有界k-均值，目的是为了优化损失，我的直观理解是，它的核心思想就是x离某个聚类y近，就把它归给该聚类y。
在这里插入图片描述
已知一组权重为 $w_i$ 的点 $x_i$ ，当 $µ=\sum_iw_ix_i/\sum_iw_i$ 时 $\sum_iw_i||x_i-µ||_2^2=\sum_iw_id(x_i,µ)$ 取的最小值,减少了k-均值每个阶段的损失。但 $d_{db}$ 不能用这种方法优化，假设y，且 $d(x_i,y)\leqslant z,\forall i$ ,µ是 $x_i$ 的加权平均值，对于 $d_{bd}$ 有： $\sum_iw_id_{db}(x_i,µ)\leqslant\sum_iw_id_{db}(x_i,y)$ ，证明：
$\sum_iw_imin(z,||x_i-µ||_2^2)\leqslant\sum_iw_i||x_i-µ||_2^2\leqslant\sum_iw_i||x_i-y||_2^2=\sum_iw_imin(z,||x_i-y||_2^2)$
注意： $\sum_iw_i||x_i-y||_2^2=\sum_iw_imin(z,||x_i-y||_2^2)$ 是相等的，因为y的取值限定在 $d(x_i,y)\leqslant z$

大意：欧式距离平方d有最优解，很容易就可以求解，但是它的变形 $d_{db}$ 不能按照这种方法求最优解，只能一步步优化，逐渐逼近最优解，可能会取到最优，但大部分情况都不能取到最优，这种情况可以选择不同的初始值，多次尝试逼近最优。

在这里插入图片描述也就是将y换成在z距离内 $x_i$ 的加权平均值µ，用这样的替换减小每个阶段的损失（或保持其恒定）。但是µ不是 $\sum_iw_id_{db}(x_i,µ)$ 的最小值；只是优于 $d(x_i,y)\leqslant z,\forall i$ 的任何y。因此，虽然有界k-均值在一步步减少损失，但不能保证是最优的（在标准k-均值算法中，虽然交替优化过程不是最优的，但每一步都是最优的），不同的初始化可以改善这个问题。
如果姿态包含角度，则距离函数和优化过程需要修改，有关详细信息，请参阅补充资料。

大意：使用不同初始化，争取逼近到最优解。以上的优化没有考虑角度信息。

2.2多帧

在这里插入图片描述在视频中，需要保证跨帧的姿态预测是一致的。为了将上面讨论的方法扩展到多个帧，我们在损失中添加了第二项，使相同对象 $y_k^t$ 的预测在相邻帧之间保持紧密
$L_{time}(Y^{t-1},Y^t)=\frac{1}{K}\displaystyle\sum_{k=1}^{K}d(y_k^{t-1},y_k^t),$
d是欧氏距离的平方。总的来说，损失:
$L(Y)=\displaystyle\sum_{t=1}^{T}L_{space}(Y^t)+\lambda\displaystyle\sum_{t=2}^{T}L_{time}(Y^{t-1},Y^t)$
λ是自己设定的，控制时间项在损失中所占的比例。λ=1说明空间项和时间项的重要性相等。

大意：之前都是单帧，所以只用考虑空间信息，多帧则需要考虑时间信息， $L_{time}$ 的意思是要使相邻两帧的姿态y紧密相邻（原因也很简单，相邻帧的同一个对象不可能出现较大的移动），这里有一个 $\lambda$ ,控制时间项的比例，如果你想让视频中的姿态流畅，就增加 $\lambda$ 就对了

在这里插入图片描述现在看一下公式（5）的优化过程，给定初始Y，在t帧迭代细化Y，损失 $L (Y)$ 将减小。假设1<t<T,重写公式（5），只包含依赖于 $Y^t$ 的项，同时保持Y的其余部分不变，如下所示:
$L(Y^t)=\frac{1}{S^t}\displaystyle\sum_{i=1}^{n^t}\min\limits_kd_{bd}(x_i^t,y_k^t)s_i^t+\lambda\frac{1}{K}\displaystyle\sum_{k=1}^{K}(d(y_k^{t},y_k^{t-1})+d(y_k^{t},y_k^{t+1}))$
用 $a_{ik}^t$ 替换 $\min\limits_k$ ，用 $d_{bd}$ 替换d:
$L'(Y^t)=\frac{\stackrel{-t}{S}}{S^t}z+\frac{1}{S^t}\displaystyle\sum_{i=1}^{n^t}a_{ik}^td_{bd}(x_i^t,y_k^t)s_i^t+\lambda\frac{1}{K}\displaystyle\sum_{k=1}^{K}(d(y_k^{t},y_k^{t-1})+d(y_k^{t},y_k^{t+1}))$
$where\quad a_{ik}^t=1[d(x_i^t,y_k^t)\leqslant d(x_i^t,y_j^t)\forall j \quad and\quad d(x_i^t,y_k^t)<z]$

大意：这些公式就变形，仔细看看前面的公式，无非就是替换，或者换一个定义，where条件中的1翻译的是指标函数，我也不太清楚，不过我之前看的论文里面提到过，如果[ ]里面的内容成立，那这个1指标函数的值就是1，我的理解就是，把x限制在一个范围内，就可以用欧氏距离的平方d代替 $d_{db}$ ,目的就是好计算嘛，因为 $d_{db}$ 这里面有非线性的min，不好逆推呀。

在这里插入图片描述其中1为指标函数， $\stackrel{-t}{s}$ 为未分配到任何聚类的所有 $x_i^t$ 的得分之和,因为赋值 $a_{ik}^t$ 是固定的，L’是L的上界，也就是 $L(Y^t)\leqslant L'(Y^t)$ . $L(Y^t)$ ，min是非线性计算，所以直接计算 $L(Y^t)$ 是非常困难的，我们用 $L'(Y^t)$ 来替代。
$L'(Y^t)$ 可以简写成：
$L'(Y^t)=\displaystyle\sum_{k}\displaystyle\sum_{j}\stackrel{-k}{s}_jd(y_k^{t},\stackrel{-k}{x}_j),$
$\stackrel{-k}{s}_j$ 和 $\stackrel{-k}{x}_j$ 一旦被写成这种形式，我们就可以计算：
$y_k^{t}=\displaystyle\sum_{j}\stackrel{-k}{s}_j\stackrel{-k}{x}_j/\sum_{j}\stackrel{-k}{s}_j$

大意：这个部分我不懂，我的理解是化简 $L'(Y^t)$ ，规定了 $\stackrel{-k}{s}_j$ 和 $\stackrel{-k}{x}_j$ ，但是我不知道这两个是什么含义，知道的小伙伴可以在评论区分享一下。

$L'(Y^t)$ 的优化方法请参考2.1节，这里不再赘述。前面给出了一种从任意Y开始，一帧一帧优化的方法。我们交替向前迭代（从t=1到t=t进行优化）和向后迭代（从t=t到t=1），直到收敛（通常几次就足够了）。为了避免局部极小值，与标准k-均值类似，执行了多次随机初始化。

大意：优化是迭代过程。

2.2变量K

我们的方法可以通过一次迭代估计一个轨迹来自动估计图像或视频中的对象数量K，我们设K=1，用2.2中的方法找到给定X和S的最佳姿势轨迹。去除返回轨迹Y附近的所有估计值 $x_i^t$ 和相应的分数 $s_i^t$ ，直到每帧只剩一个估计姿态（或者没有姿态，这种就是画面中没有出现对象）停止迭代。如果 $d(x_i^t,y^t)<z$ ，则删除估计值 $x_i^t$ 。我们将我们的完整方法称为Pose_NMS，我们的Matlab代码在标准的3.4Ghz CPU上运行速度为10-25fps，这取决于K和D。源代码可以在线获得。
Pose_NMS是一种多功能方法。可以合并单个图像或短序列中的姿态，通过参数λ控制时间项所占比例。如果长时间物体数量固定（例如笼子里的动物），可以使K>1进行联合优化，生成一种高效的“重复姿态估计跟踪”方法。可用于跟踪场景（进入/离开场景的对象数量可变），用Pose_NMS在短序列中查找相关轨迹。