CVPR 2020: VIBE: Video Inference for Human Body Pose and Shape Estimation 阅读随笔_mathlxj的博客-CSDN博客论文地址Github地址以下为我的OneNote阅读笔记,为图片格式,留言/邮件可发原文件.https://blog.csdn.net/mathlxj/article/details/104839129?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522163607406116780357237436%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=163607406116780357237436&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-1-104839129.first_rank_v2_pc_rank_v29&utm_term=VIBE%3A+Video+Inference+for+Human+Body+Pose+and+Shape+Estimation&spm=1018.2226.3001.4187【论文阅读】VIBE 基于视频的人体3D形状和姿态估计_屿十_-CSDN博客论文原文:https://arxiv.org/pdf/1912.05656.pdf一、介绍1、之前的方法与局限性方法将室内3D数据集与具有2D地面真实或伪地面真实关键点标注的视频相结合;局限性室内三维数据集在对象数量、运动范围和图像复杂度方面受到限制;用地面真实二维姿态标记的视频量仍然不足以训练深层网络;伪地面真实二维标签对于三维人体运动建模不可靠。2、现有方法的问题缺乏带标注的3D人体姿态和形态估计的数据集现有的方法不够完善,无法捕获到人类实际运动的复杂性和可变性,
https://blog.csdn.net/qq_42366123/article/details/108148121上面两篇博客基本将论文解释清楚了,但是还有一些疑问和细节
1.具体的对抗训练是怎么体现的,固定姿态生成器训练运动辨别器,和固定运动辨别器训练姿态生成器?应该代码中是交替更迭训练。
2.
运动判别器部分按照图中所示,是否可以这样理解:将AMASS的pose输入到判别器中计算一个loss,再将生成器中的pose输入到判别器中输出一个loss,最后两个loss相加进行优化。
3. MPose模块具体什么意思还不太懂,需要读代码
4.对抗学习的思路借鉴了HMR的工作https://arxiv.org/pdf/1712.06584.pdf,使用的数据集没有真实的3D标注,只有2D的标注