每周总结(十二)

2021年第14周学习小结:

论文阅读 Model-based 3D Hand Reconstruction via Self-Supervised Learning

摘要

文章中提出了一种模型 S 2 H A N D S^2HAND S2HAND,通过联合估计姿势、形状、纹理及相机视点,从单幅图像中重建出人手的三维模型,其中输入图像不需要人工标注。
结果

方法

由于二维图像中手的关键点包含了三维结构信息,而图像色彩又与手的纹理相关,因此不需要三维标注,仅使用二维的关键点以及输入图像来学习重建所需要的三维信息,其中二维关键点的标注也可以由网络实现。这样就能够从未标注图像实现三维重建。

手的结构由21个关键点以及20段骨表示:
21个关键点以及骨头

首先使用一个二维关键点检测器(Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields, CVPR 2017)得到一组关键点,并由这些关键点以及输入图像进行手部的重建。

文章提出了一种基于模型的AutoEncoder,将三维手部的关节投影到二维空间中与关键点对齐。若仅依靠二维对齐,可能出现在图像中关键点与三维关节对齐了,但是重建出手的结构发生错误的情况,因此引入一些约束条件防止得到错误的重建结果。

为了处理关键点检测器中的噪声,提出了一种可训练的二维关键点估计器,同时用多种方式得到二维关键点,并在关键点估计器及三维重建网络中引入了一致性损失。

主要贡献:

  • 提出了一个自监督的三维手部重建网络,无需对训练数据进行标注,就能重建出手的三维模型与纹理。
  • 利用可训练的二维关键点估计器,提高三维重建效率。
  • 引入了手部纹理估计模块,用于重建出表面的纹理。
  • 该方法(自监督)与以往的监督方法具有相近的性能。

模型: S 2 H A N D S^2HAND S2HAND

S 2 H A N D S^2HAND S2HAND(self-supervised 3D hand reconstruction)以自监督方式实现手部的重建。输入RGB图像,通过自编码器得到姿势、形状、纹理以及相机视点。
S2Hand

Deep Hand Encoding

使用EfficientNet主干网络作为自编码器的编码部分,将手的图像编码为几何语义特征x以及纹理语义特征y,其中几何特征参数化 ( β , θ , s , R , T ) (\beta,θ,s,R,T) (β,θ,s,R,T)为手部参数以及相机参数。其中手部特征包括:10维形状参数 β \beta β以及10*3维姿势参数 θ θ θ,相机特征包括:比例参数 s s s、旋转参数 R R R、位置参数 T T T。而纹理特征 ( C , L ) (C,L) (C,L)对应皮肤纹理信息以及11维的光照信息。
由于代码暂时没有公开,不清楚手部的姿势如何由一个10维向量确定,后续会补上

Model-based Hand Decoding

在给定几何语义特征x以及纹理几何特征y的情况下,基于模型的解码器在相机空间生成一个包含纹理的三维手部模型。

  • 手部模型由一个包含778个顶点的mesh表示,给定网络拓扑,可以直接得到一组(21个)关节J。Mesh以及关节由MANO网络重建得到。
  • 根据相机参数对手的Mesh以及关节做平移旋转缩放操作,在相机坐标系下重新表示
  • Mesh中的每个顶点使用对应的RGB值表示手的纹理,使用环境光以及平行光模拟光照条件,环境光包含强度(一维)、颜色(三维),平行光包含强度、颜色及方向。

Represent Hand in 2D

通过相机投影,可将三维空间中的关键点投影至图像空间中,同理,三维的纹理模型可以渲染为二维的手部图像。除了通过投影从三维得到二维的关键点,还可以从输入图像估计出二维关键点,以下有三种方法表示手的二维姿态:

  1. 关节投影:通过三维空间中的关节以及相机参数,投影得到21个二维关键点
  2. 图像渲染:使用渲染器(Neural 3D Mesh Renderer, CVPR 2018)将手的Mesh模型渲染为一幅二维图像。给定Mesh,纹理,光照即可生成轮廓及彩色图像。
  3. 关键点估计器:直接估计21个关节的二维坐标。

损失函数

三种不同方式得到二维关键点分别表示为:由三维投影得到的关键点 j p r o j^{pro} jpro、检测关键点 j d e j^{de} jde、关键点估计器得到的二维关键点 j 2 d j^{2d} j2d
损失函数
损失函数由 E 3 d E_{3d} E3d E 2 d E_{2d} E2d E c o n E_{con} Econ三部分加权得到,分别对应三维分支损失、二维分支损失以及一致性损失,后两项损失仅在训练2D估计器时使用。

三维分支损失 E 3 d E_{3d} E3d

在这里插入图片描述

  1. 几何对准损失 E g e o E_{geo} Egeo
    egeo
    geo详细
    由关节对齐损失以及骨对齐损失组成,关节位置损失计算投影得到的关键点与检测器得到的关键点之间的误差。骨方向损失用于计算20段骨向量的方向差异。

  2. 一致性损失 E p h o t o E_{photo} Ephoto
    ephoto
    在这里插入图片描述
    在这里插入图片描述
    由像素损失以及结构损失组成,通过渲染的轮廓图来获取输入图像的前景部分(手)计算其与渲染手的图像之间的偏差。

  3. 正则化损失 E r e g u E_{regu} Eregu
    在这里插入图片描述
    使重建出的形状接近平均形状,惩罚渲染出的异常颜色,使重建出的手尺度接近,以及对结构角度做约束。
    在这里插入图片描述

二维分支损失 E 2 d E_{2d} E2d

几何对准损失 E g e o E_{geo} Egeo
在这里插入图片描述
与三维分支损失中的关节对准损失类似,计算二维估计关键点与检测器得到的关键点之间的差异。

一致性损失 E c o n E_{con} Econ

在这里插入图片描述
用于计算三维投影关键点与二维估计关键点之间的差异。

数据集

FreiHAND:真实数据,未标注,部分图像中包含抓取物体的动作。模型不包含表面纹理信息。
在这里插入图片描述

地址:https://lmb.informatik.uni-freiburg.de/resources/datasets/FreihandDataset.en.html

HO-3D:视频序列,包含手与交互对象的模型,对象体积更大,对手的遮挡也更多。
在这里插入图片描述

地址:https://www.tugraz.at/index.php?id=40231

结果

在这里插入图片描述
由于使用了多种方式得到关键点,使得关节的预测更加准确,对应的Mesh也更接近真实结果。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值