Summary——Indirect deep structured learning for 3D human body shape and pose prediction

Research Problem:探究预测人体三维体型和体态的新方法。

Contributions:

  1. 提出一个编码器—解码器结构,用于预测三维体型和体态。
  2. 对应于编码器—解码器的训练程序。
  3. 分别在人工数据集和现实数据集上进行了实验分析。

Empirics:

  1. 人工数据(artificial data):通过SMPL模型得到的数据,该数据用于编码器和解码器的训练。制作过程为从SMPL模型的82个参数中选择3个主要方向的旋转,10个体型,20个姿势的参数集合。对于每一个数据点(数据点=某个旋转方向+某个体型+某个姿势),制作相应的RGB图片+剪影图片。其中RGB仅用于整个网络的训练,而剪影图片用于解码器训练和整个网络的训练(注意:这里应该参照该结构的训练过程,区分二者的区别)。而RGB图片又分为两种,一种噪声比较小,一种噪声大。
  2. 现实数据(real image):取自Unite the People(UP)数据集,8515张含有3D体型体态标签真值的图片子集。又过滤掉对应于不能和人工数据对应的图片(比如说旋转角度大于72度啦等等,其实人工数据选取的时候也是参照了UP数据集的),过滤之后,只剩下1307训练样本和139个测试样本。

Methods:

本文设计的结构,由一个编码器和一个解码器组成。

解码器结构与作用:编码器中输入的是82(3个旋转+10个体型+69个姿势=82)个SMPL模型的参数,输出SMPL人体模型的剪影图片(该图片为两类标签图片)。即,输入3D模型,输出模型剪影。

该解码器分为三个单元:

  1. 转化单元:将输入的82个人体参数转化为长度为648的向量。这里包含三层全连接层,分别有256,384和648个输出。
  2. 扩展单元:先将长度为648的向量转化为9*9*8,再通过反卷积层将其扩展为69*69*384。
  3. 学习单元:包括一个卷积滤波器和一个按像素—softmax传递函数层,输出格式为64*64*2(在一定程度上压缩了,更小的分辨率用于简化解码器的学习过程)

编码器结构与作用:输入一张RGB图片,输出82个SMPL参数。即,输入人体图片,输出3D人体模型。

该编码器分为三个单元:

  1. 外观单元(Appearance unite):输入256*256*3的图片,输出16*16*256。用于将图片的背景和人物前景分离开来。
  2. 压缩单元:压缩从外观单元传递过来的数据到尺寸为1*1*64。
  3. 转化单元:转化低维卷积滤波器的输出为3D模型参数。使用三个全连接层,分别有1296,128和82(刚好就是SMPL模型所需的参数个数)个输出。

综上所述,整体编码器—解码器的结构如下:

最终目的,是给一张RGB图片,得到它的3D模型,一般来说,需要不少对应的3D模型真值作为训练集进行训练。但这样的真值比较稀缺,本文设计该结构的最终目的,就是为了降低对于立体真值的依赖。

在训练时,先训练解码器,给出剪影真值和一些选定好的SMPL参数,训练出固定SMPL参数得到的剪影,其目的不是得到剪影图片,而是在知道剪影真值时,希望能得到对应的立体模型。

这时要怎么在立体模型和RGB图片间建立对应呢?

解码器训练完以后,就将它固定(权重和偏差固定下来),整体地训练编码器,显然,这里通过解码器来训练编码器。前述剪影真值就是编码器输入图片的真值剪影,即在输入RGB图片后,训练编码器,得到对应3D模型。

Results and finds:

实验一,针对编码器和解码器分别设计了六种结构,并做了效果对比(其实个人感觉这个实验很多余,原因在下面的Constructive critiques会提到)。

实验二,对比直接学习(在训练时提供3D体型,体态参数)和间接学习。二者采用的结构是一样的,唯一不同的是,在直接训练时,预测体型体态的层额外有一个欧式损失(Euclidean loss)。因为直接学习试用了UP数据集和人造数据的3d参数真值,所以在编码器的训练中可以加入真值和预测之间的欧氏距离。

间接学习在分割(预测剪影)时表现更好,直接学习在3D模型的预测上表现更好。

实验三,分别在人工图片,现实图片,以及混合图片数据集上训练,对比效果。

Constructive critiques:

  1. 本文采用的现实数据集中的图片只含有10%的背景,也就是说,背景杂斑很少,这是不是会给文章带来更有利的结果,本文所呈现出的结果是否就是该结构的upper bound???
  2. 本文采用的是UP数据集,根据之前所读的文章所讲述的UP数据集的种种不是,本文是否用COCO能够得到更好的效果呢???

不能呀,coco不是只是图片数据集吗,没有3D真值,你怎么问这种傻问题呀。

  1. 压缩和扩展的意义到底在哪里???压缩难道不会失去很多细节的信息吗??扩展之后又进行了少量压缩,既然如此为什么还要扩展那么多,少扩展一点不就完事了吗???
  2. 其中有个实验室为编码器和解码器分别设计六种结构,然后选了一个效果差不多的结构使用了,这个实验是不是有点多余???因为本文自己也说了,其实对于这结构精心设计总是会有更好的效果,不过这不是本文的工作。那既然这么说,原本结构也都是你自己挨个调整设计的,你个只需要告诉大家你这个正确率是多少就足够了,读者从你的实验中得不到什么有用的信息,是不是没有必要做这个对比实验。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值