目录
VIBE: Video Inference for Human Body Pose and Shape Estimation
Beyond Static Features for Temporally Consistent 3D Human Pose and Shape from a Video
Learning to Reconstruct 3D Human Pose and Shape via Model-fitting in the Loop
VIBE: Video Inference for Human Body Pose and Shape Estimation
Motivation
缺乏用于训练的地面真实3D运动数据,现有的视频方法无法产生准确和自然的运动序列(3D人体姿态的很多数据集都是在室内捕获的)
Solution
采用了对抗性的学习框架,在即便没有野外真实3D标签的情况下依然可以学习到很好的运动序列
利用到了一个对抗AMASS这个大型的运动捕捉数据集
疑问:这个数据集在这里起到了什么作用?
这里这个数据集可能只是提供一个真实的姿态,并没有提供野外数据集对应的姿态,只是让判别器能够判断哪个是真的即可
Method
训练时
VIBE将户外运动图片作为输入,经由CNN卷积网络,再经由一个时间编码器和身体参数回归器回归得到网络预测姿势,然后一个判别器discriminator判断网络产生的姿势和AMASS数据集采样得到的一个真实姿势哪一个是真的,同时利用门控循环单元(GRU)去捕获人体运动的顺序性质
判别器discriminator利用了这种可学习的注意力机制
整个网络以这种带有对抗性损失做监督,最小化预测关键点和真实关键点,姿势,形状参数等的损失
测试时
给定一个视频,使用CNN卷积网络和时间模块去预测每一帧的姿势和形状参数
code
def train(self):
# Single epoch training routine
losses = AverageMeter()
timer = {
'data': 0,
'forward': 0,
'loss': 0,
'backward': 0,
'batch': 0,
}
self.generator.train()
self.motion_discriminator.train()
start = time.time()
summary_string = ''
bar = Bar(f'Epoch {self.epoch + 1}/{self.end_epoch}', fill='#', max=self.num_iters_per_epoch)
...
preds = self.generator(inp)
可拓展点:
如何提高这种模型在户外的这种泛化性能
疑问:
这其实是一种无监督训练?
判别器是怎么判断真假的?
当网络可以生成判别器也无法判断的真实的姿势时,也就意味着在遮挡情况下会生成更合理的姿态
总之一个思路是先让网络学习到一些人体信息,例如GAN让网络生成尽可能真实的人体,或者采用Bert等形式Mask后预测,他们的本质其实是一样的。这样可以更好解决我们遇到的问题
Beyond Static Features for Temporally Consistent 3D Human Pose and Shape from a Video
Motivation
以往的方法在单幅图像上取得了成功,但从视频中恢复时间一致和平滑的3D人体运动依然具有挑战性
解决这种时间一致性的问题
### Solution
提出一个时间一致的网络恢复系统(TCMR)包含两个特征,取消了以往的当前帧的静态特征和整体的一个时间特征的残差连接
它通过去除对当前特征的强依赖,它可以更加有效专注于过去和未来帧的时间信息,而不受当前静态特征的支配。
Method
ResNet提取每一帧的静态特征,
PoseForecast 通过使用两个额外的 GRU(分别表示为 Gpast 和 Gfuture)从过去和未来帧预测当前目标姿势的附加时间特征
这一篇工作其实在某种意义上继承8月2日的工作
启发
各种特征分开提取,比如当前帧前的特征,当前帧后的特征等等
可不可以加一些Mask,检测人体,并且输出人体轮廓
Learning to Reconstruct 3D Human Pose and Shape via Model-fitting in the Loop
Motivation
基于回归的方法还是基于优化的方法都在3D人体姿态生成上取得了一系列的成功,但两者各有优缺点
优化方法
基于优化的方法以迭代的方式将参数身体模型拟合到2D观测中
更加精确,但是通常比较慢而且对初始化比较敏感
回归方法
用一个深度网络直接回归模型参数
没有那么精确,结果需要大量的监督信号
Solution
本文进行了一个两者的一个结合
从网络直接回归的估计可以初始化迭代优化,使拟合更快、更准确
从迭代优化中准确拟合的像素可以作为网络的强监督
Method
首先CNN提取图像特征回归得到形状参数,这里用来初始化优化模型(解决优化模型的初始化的难题),优化模型开始迭代,投影拟合2D关节,得到比较好的结果后再返回给回归模型,两者相互促进
启发:
有些时候可以想一想融合两种看似对立的方法
基于回归的方法?
基于优化的方法?
基于多假设的方法
基于什么的方法