《JOINT MULTI-VIEW PEOPLE TRACKING AND POSE ESTIMATION FOR 3D SCENE RECONSTRUCTION》阅读笔记

有一段时间没更了,最近在忙着coding,没有好好作整理。往后会更新几篇论文阅读。
《JOINT MULTI-VIEW PEOPLE TRACKING AND POSE ESTIMATION FOR 3D SCENE RECONSTRUCTION》是华盛顿大学唐正的文章,发表于2018年,讲的是一个离线的MOT方法。
在这里插入图片描述

摘要:

监视视频中数据分析的目的是充分理解和重建3D场景,即恢复每个对象的轨迹和动作. 在具有重叠视点的多摄像机监控系统中,我们提出了一种新的视频场景重建框架,用于协同跟踪多个人体物体并估计其三维姿态。首先,根据tracking-by-detection模式,从每个单视图中提取轨迹。我们提出一种有效集成视觉和语义目标属性的方法,即外观模型、几何信息和姿态/动作,以关联不同视图的跟踪。基于从追踪导出的最佳视角,引入人体姿态的分层估计,以生成每个对象的3D骨架。将估计的身体关节点再反馈到追踪阶段以增强Tracklet之间的关联。通过对多视点跟踪和三维姿态估计基准的实验,验证了该方法的有效性。

第一章 介绍

1. 视频分析在这一研究领域中,主要应用的最终目的是充分理解和重建三维空间中的视频场景。不但要进行多目标识别和轨迹跟踪,还要准确地评估他们的姿态。
2. 尽管有了许多的研究,但是依然存在一些问题。一个是在多人遮挡的场景中,ID会经常变换。此外,同一对象在不同的视点上可能会有很大的外观变化。最后,(ground plane estimation)地面建模中常见的不精确性会导致位置坐标方面的错误,特别是对于视频场景中距离镜头较远的目标。
3. 多视点三维姿态估计为许多有用的应用(如动作识别)提供了信息丰富和视图不变的特征。(利用3D姿态估计作行为识别)主要的挑战是,由于深度信息的丢失和频繁的(自)遮挡,问题的约束性不足。
4. 本文提出了一种多视点多目标跟踪与三维人体姿态估计相结合的场景重建方法。对于初始化,我们遵循跟踪检测模式来生成轨迹,这是一系列人的包围盒,按时空一致性和感知相似性对Bbox进行分组。匹配算法是包括一个用于双向外观比较的基于像素的自适应模型和一个基于深度和可见性加权的几何邻近测量。我们还使用来自姿态估计阶段的反馈来引入显式动作描述符。利用多视点跟踪中的几何信息,选择层次式三维姿态估计的最优视点,其中,肢体位姿估计是将肘部和手腕的再投影误差降到最小。
5. 贡献有两方面:多摄像头数据融合采用了视觉属性和语义属性的新表示,这是一个能量最小化(energy minimization)问题。其次,我们提出了一种层次化的姿态估计模型,该模型通过最小化再投影误差来求解肢体位姿估计问题。

第三章 方法

  1. 先使用目标检测器对每一帧进行检测,然后用卡尔曼滤波将Bbox链接成轨迹片段。具体分段的依据是,当(1)从帧边界退出时, (2)被遮挡,或者(3)卡尔曼预测值超过距离最近的Bbox一米的位置也会被分段(即开启新的轨迹)。所有相机都是基于一组2D轨迹[17]进行自校准,并根据一些共享的参考点转换成一个全局坐标系。
    (后面的部分写完在另一台电脑上,被我不小心覆盖写删了,我好气呀,有时间再补吧)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值