Read Paper | 3D 人体姿态估计-1 | 8月2日-8月4日

Qodicat

于 2023-08-04 17:14:28 发布

阅读量157

点赞数 1

分类专栏： AI前沿论文阅读文章标签： 3d python 计算机视觉机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Q52099999/article/details/132108635

版权

AI前沿论文阅读专栏收录该内容

12 篇文章 0 订阅

订阅专栏

目录

VIBE: Video Inference for Human Body Pose and Shape Estimation

Beyond Static Features for Temporally Consistent 3D Human Pose and Shape from a Video

Learning to Reconstruct 3D Human Pose and Shape via Model-fitting in the Loop

VIBE: Video Inference for Human Body Pose and Shape Estimation

Motivation

缺乏用于训练的地面真实3D运动数据，现有的视频方法无法产生准确和自然的运动序列（3D人体姿态的很多数据集都是在室内捕获的）

Solution

采用了对抗性的学习框架，在即便没有野外真实3D标签的情况下依然可以学习到很好的运动序列

利用到了一个对抗AMASS这个大型的运动捕捉数据集

疑问：这个数据集在这里起到了什么作用？

这里这个数据集可能只是提供一个真实的姿态，并没有提供野外数据集对应的姿态，只是让判别器能够判断哪个是真的即可

Method

训练时

VIBE将户外运动图片作为输入，经由CNN卷积网络，再经由一个时间编码器和身体参数回归器回归得到网络预测姿势，然后一个判别器discriminator判断网络产生的姿势和AMASS数据集采样得到的一个真实姿势哪一个是真的，同时利用门控循环单元（GRU）去捕获人体运动的顺序性质

判别器discriminator利用了这种可学习的注意力机制

整个网络以这种带有对抗性损失做监督，最小化预测关键点和真实关键点，姿势，形状参数等的损失

测试时

给定一个视频，使用CNN卷积网络和时间模块去预测每一帧的姿势和形状参数

code

def train(self):
        # Single epoch training routine

        losses = AverageMeter()

        timer = {
            'data': 0,
            'forward': 0,
            'loss': 0,
            'backward': 0,
            'batch': 0,
        }

        self.generator.train()
        self.motion_discriminator.train()

        start = time.time()

        summary_string = ''

        bar = Bar(f'Epoch {self.epoch + 1}/{self.end_epoch}', fill='#', max=self.num_iters_per_epoch)
        
    ...
    preds = self.generator(inp)

可拓展点：

如何提高这种模型在户外的这种泛化性能

疑问:

这其实是一种无监督训练？

判别器是怎么判断真假的？

当网络可以生成判别器也无法判断的真实的姿势时，也就意味着在遮挡情况下会生成更合理的姿态

总之一个思路是先让网络学习到一些人体信息，例如GAN让网络生成尽可能真实的人体，或者采用Bert等形式Mask后预测，他们的本质其实是一样的。这样可以更好解决我们遇到的问题

Beyond Static Features for Temporally Consistent 3D Human Pose and Shape from a Video

Motivation

以往的方法在单幅图像上取得了成功，但从视频中恢复时间一致和平滑的3D人体运动依然具有挑战性

解决这种时间一致性的问题

### Solution

提出一个时间一致的网络恢复系统（TCMR）包含两个特征，取消了以往的当前帧的静态特征和整体的一个时间特征的残差连接

它通过去除对当前特征的强依赖，它可以更加有效专注于过去和未来帧的时间信息，而不受当前静态特征的支配。

Method

ResNet提取每一帧的静态特征，

PoseForecast 通过使用两个额外的 GRU（分别表示为 Gpast 和 Gfuture）从过去和未来帧预测当前目标姿势的附加时间特征

这一篇工作其实在某种意义上继承8月2日的工作

启发

各种特征分开提取，比如当前帧前的特征，当前帧后的特征等等

可不可以加一些Mask，检测人体，并且输出人体轮廓

Learning to Reconstruct 3D Human Pose and Shape via Model-fitting in the Loop

Motivation

基于回归的方法还是基于优化的方法都在3D人体姿态生成上取得了一系列的成功，但两者各有优缺点

优化方法

基于优化的方法以迭代的方式将参数身体模型拟合到2D观测中

更加精确，但是通常比较慢而且对初始化比较敏感

回归方法

用一个深度网络直接回归模型参数

没有那么精确，结果需要大量的监督信号

Solution

本文进行了一个两者的一个结合

从网络直接回归的估计可以初始化迭代优化，使拟合更快、更准确

从迭代优化中准确拟合的像素可以作为网络的强监督

Method

首先CNN提取图像特征回归得到形状参数，这里用来初始化优化模型（解决优化模型的初始化的难题），优化模型开始迭代，投影拟合2D关节，得到比较好的结果后再返回给回归模型，两者相互促进

启发：

有些时候可以想一想融合两种看似对立的方法

基于回归的方法？

基于优化的方法？

基于多假设的方法

基于什么的方法

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Read Paper | 3D 人体姿态估计-1 | 8月2日-8月4日

读论文系列第一弹
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。