Read Paper | 3D 人体姿态估计-1 | 8月2日-8月4日

目录

VIBE: Video Inference for Human Body Pose and Shape Estimation

Motivation

Solution

Method

code

Beyond Static Features for Temporally Consistent 3D Human Pose and Shape from a Video

Motivation

Method

Learning to Reconstruct 3D Human Pose and Shape via Model-fitting in the Loop

Motivation

Solution

Method


VIBE: Video Inference for Human Body Pose and Shape Estimation

Motivation

缺乏用于训练的地面真实3D运动数据,现有的视频方法无法产生准确和自然的运动序列(3D人体姿态的很多数据集都是在室内捕获的)

Solution

采用了对抗性的学习框架,在即便没有野外真实3D标签的情况下依然可以学习到很好的运动序列

利用到了一个对抗AMASS这个大型的运动捕捉数据集

疑问:这个数据集在这里起到了什么作用?

这里这个数据集可能只是提供一个真实的姿态,并没有提供野外数据集对应的姿态,只是让判别器能够判断哪个是真的即可

Method

 

训练时

VIBE将户外运动图片作为输入,经由CNN卷积网络,再经由一个时间编码器和身体参数回归器回归得到网络预测姿势,然后一个判别器discriminator判断网络产生的姿势和AMASS数据集采样得到的一个真实姿势哪一个是真的,同时利用门控循环单元(GRU)去捕获人体运动的顺序性质

判别器discriminator利用了这种可学习的注意力机制

整个网络以这种带有对抗性损失做监督,最小化预测关键点和真实关键点,姿势,形状参数等的损失

测试时

给定一个视频,使用CNN卷积网络和时间模块去预测每一帧的姿势和形状参数

code

def train(self):
        # Single epoch training routine
​
        losses = AverageMeter()
​
        timer = {
            'data': 0,
            'forward': 0,
            'loss': 0,
            'backward': 0,
            'batch': 0,
        }
​
        self.generator.train()
        self.motion_discriminator.train()
​
        start = time.time()
​
        summary_string = ''
​
        bar = Bar(f'Epoch {self.epoch + 1}/{self.end_epoch}', fill='#', max=self.num_iters_per_epoch)
        
    ...
    preds = self.generator(inp)

可拓展点:

如何提高这种模型在户外的这种泛化性能

疑问:

这其实是一种无监督训练?

判别器是怎么判断真假的?

当网络可以生成判别器也无法判断的真实的姿势时,也就意味着在遮挡情况下会生成更合理的姿态

总之一个思路是先让网络学习到一些人体信息,例如GAN让网络生成尽可能真实的人体,或者采用Bert等形式Mask后预测,他们的本质其实是一样的。这样可以更好解决我们遇到的问题

Beyond Static Features for Temporally Consistent 3D Human Pose and Shape from a Video

Motivation

以往的方法在单幅图像上取得了成功,但从视频中恢复时间一致和平滑的3D人体运动依然具有挑战性

解决这种时间一致性的问题

### Solution

提出一个时间一致的网络恢复系统(TCMR)包含两个特征,取消了以往的当前帧的静态特征和整体的一个时间特征的残差连接

它通过去除对当前特征的强依赖,它可以更加有效专注于过去和未来帧的时间信息,而不受当前静态特征的支配。

Method

 

ResNet提取每一帧的静态特征,

PoseForecast 通过使用两个额外的 GRU(分别表示为 Gpast 和 Gfuture)从过去和未来帧预测当前目标姿势的附加时间特征

这一篇工作其实在某种意义上继承8月2日的工作

启发

各种特征分开提取,比如当前帧前的特征,当前帧后的特征等等

可不可以加一些Mask,检测人体,并且输出人体轮廓

Learning to Reconstruct 3D Human Pose and Shape via Model-fitting in the Loop

Motivation

基于回归的方法还是基于优化的方法都在3D人体姿态生成上取得了一系列的成功,但两者各有优缺点

优化方法

基于优化的方法以迭代的方式将参数身体模型拟合到2D观测中

更加精确,但是通常比较慢而且对初始化比较敏感

回归方法

用一个深度网络直接回归模型参数

没有那么精确,结果需要大量的监督信号

Solution

本文进行了一个两者的一个结合

从网络直接回归的估计可以初始化迭代优化,使拟合更快、更准确

从迭代优化中准确拟合的像素可以作为网络的强监督

 

Method

首先CNN提取图像特征回归得到形状参数,这里用来初始化优化模型(解决优化模型的初始化的难题),优化模型开始迭代,投影拟合2D关节,得到比较好的结果后再返回给回归模型,两者相互促进

启发:

有些时候可以想一想融合两种看似对立的方法

基于回归的方法?

基于优化的方法?

基于多假设的方法

基于什么的方法

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值