视频姿态估计:DeciWatch

DeciWatch是一个在2D/3D视频人体姿态估计中提高效率的框架,通过采样-降噪-恢复策略,仅处理少量关键帧,实现了10倍效率提升,同时保持高精度。它使用Transformer架构对估计的姿势进行去噪和恢复,减少了对每一帧的昂贵计算需求。
摘要由CSDN通过智能技术生成

论文链接:https://arxiv.org/pdf/2203.08713.pdf
论文代码: https://github.com/cure-lab/DeciWatch
项目链接:https://ailingzeng.site/deciwatch
论文出处:2022 ECCV
论文单位:港中文

摘要

  • 本文提出了一个简单的基线框架,用于基于视频的2D/3D人体姿态估计,可以在不降低任何性能的情况下实现10倍的效率提高,称为DeciWatch
  • 与目前估计视频中每帧的解决方案不同,DeciWatch引入了一个简单而有效的采样-降噪恢复框架,该框架仅观察稀疏采样帧,利用人体运动的连续性和轻量级姿态表示。
  • 具体来说,DeciWatch均匀采样少于10%的视频帧进行详细估计,使用高效的Transformer架构对估计的2D/3D姿势进行降噪,然后使用另一个基于Transformer的网络准确恢复其余帧
  • 基于四种数据集的视频人体姿态估计、身体网格恢复任务和高效标记的综合实验结果验证了DeciWatch的效率和有效性。

1. 简介

  • 2D/3D人体姿态估计有许多应用,如监视、虚拟现实和自动驾驶。

  • 文献中提出了各种高性能的基于图像的姿态估计器,但它们都伴随着大量的计算成本。

  • 有两种主要方法可以提高人体姿态估计器的效率,以便它们可以部署在资源稀缺的边缘设备上(例如,智能相机)。

  • (1)提高效率的一种直接方法是设计更紧凑的模型,例如许多轻量级图像级姿态估计器(见图1(A)(i))和视频级姿态估计器(见图1(A)(ii))。

  • 然而,在对视频进行估计时,由于采用逐帧估计方案,这种方法不可避免地会导致效率提高的次优解。
    在这里插入图片描述
    图(a)是紧凑型模型设计。(绿色)姿态估计模块有两种设计策略:(i) 展示了单帧高效方法,这些方法使用轻量化模型来降低每帧的成本; (ii) 提出了一些时间效率策略,通过 RNNs 利用连续帧之间的特征相似性来降低特征提取成本。

  • (2)相比之下,一个有前途但很少被探索的方向是利用视频帧之间的语义冗余,我们可以只将关键帧提供给重型和高性能模块,并使用轻型模块恢复或估计其余帧(见图1(b))。

  • 这些工作虽然由于关键帧的使用提高了计算效率,但仍然需要对每一帧进行昂贵的特征提取来选择关键帧,这使得它们的计算复杂度难以进一步降低。
    在这里插入图片描述
    图(b)是基于关键帧的高效框架。他们首先通过观看视频中的所有帧来选择30% ~ 40%的关键帧,然后根据所选关键帧的特征恢复整个序列。

  • 为了在不需要观看视频中的每一帧的情况下实现高效的2D/3D姿态估计,我们提出了一种基于人体运动连续性的新框

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值