来源:ICCV2017
Abstract
单个2D图像中的人物检测近年来已经得到大大改善。 然而,这一进展很少渗透到多摄像机多人追踪算法中,当场景变得非常拥挤时,其检测性能仍然严重恶化。 在本论文中,我们引入了一个新的架构,结合了卷积神经网络和条件随机场来明确地模拟这些模糊。 其中一个关键要素是高阶CRF术语,模拟潜在的阻塞,并且即使在许多人在场的情况下,我们的方法仍然具有鲁棒性。 我们的模型是端到端的训练,我们证明它在挑战性的场景上胜过了几种最先进的算法。
1. Introduction
多摄像机多目标跟踪(MCMT)算法在复杂环境中追踪人物已经取得了一定的效果。在深度学习出现之前,一些最有效的方法依赖于简单的背景减除、几何、稀疏性约束以及遮挡推理[12,6,1]。鉴于背景减除的有限区分能力,只要场景中没有太多人,他们的工作就非常出色。然而,随着人员密度的增加,它们的性能下降,使得背景减法作为输入的信息量越来越少。
从那之后,基于深度学习的单镜头人物检测算法[23,19,28]已经成为最有效的算法[28]。然而,这些优秀的算法很少被用于MCMT。近期的一些算法,如[27],试图通过首先检测单个图像中的人,将检测映射到共同的参考帧中,并最终将它们对应以实现3D定位并消除误报。如图1所示,出于两个原因&
从那之后,基于深度学习的单镜头人物检测算法[23,19,28]已经成为最有效的算法[28]。然而,这些优秀的算法很少被用于MCMT。近期的一些算法,如[27],试图通过首先检测单个图像中的人,将检测映射到共同的参考帧中,并最终将它们对应以实现3D定位并消除误报。如图1所示,出于两个原因&