3D手势重建-自监督学习Model-based 3D Hand Reconstruction via Self-Supervised Learning

最新推荐文章于 2022-06-18 02:03:19 发布

fwyynl

最新推荐文章于 2022-06-18 02:03:19 发布

阅读量1.4k

点赞数

分类专栏：计算机视觉文章标签：机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37003230/article/details/120629016

版权

计算机视觉专栏收录该内容

8 篇文章 0 订阅

订阅专栏

自监督学习

A survey on Semi-, Self- and Unsupervised Techniques in Image Classification （Similarities, Differences & Combinations）

3D注释：

密集的手部扫描，模型拟合的参数化手部网格，人类注释的3D关节

在一些应用中，手部纹理也需要注意

大部分方法重建3D手需要在训练时进行3D注释（贵）

本文：Model-based 3D Hand Reconstruction via Self-Supervised Learning

提出S2HAND，估算姿势、形状、纹理、相机视角

从图中获得几何线索通过2D的监测关键点

几何线索（geometric cues）2D,3D表征的一致性，

深度模糊性：图像深度差和模糊度的关系

深度图像：

图像采集器到场景中各点的距离（深度）作为像素值的图像

应用：三维重建、姿态估计、目标检测、人体感应、图像分割、SLAM、前景提取、目标跟踪

获取方法：结构光、ToF、双目

RGB-D图像

noisy detected 2D key points

稀疏关节的手势是不够的，需要三角网格，要么通过回归每顶点坐标，要么通过变形参数化的手势模型

一些方法总结：3DJ关节 / 3DM网格 / TI一组清晰手部纹理图 / 2DKP / 2DS剪影 / D深度 / D2DKP检测的2D关键点 / Syn额外合成序列数据 / Mo额外动作捕捉数据

2D注释也费人力，所以本文从未标注的图片上抓取几何表征去shape construction，不使用人为的注释

目标：准确、稳健的3D手部重建网络

现成的二维关键点监测点，有noise，加上input image进行监督重建

问题：

联合二维关键点 -》不适定的单目3D？
没有ground-truth，怎么处理2D检测的输出里的噪音？

解决：

1.基于模型的自动编码器，估计3D关节和形状

编码器输出3D关节 -> 投影到图像空间，训练时与关键点对齐

只对齐关键点无效手势，二维关键点不能减少尺度模糊性，所以添加先验因素

2.二维关键点估计器，新的2D-3D一致性损失

损失结合二维关键点估计器和三维重建网络

不同样本检测精度差异性大 - 》区分开来，权衡监督力度

相关工作：

参数化模型

图像特征编码阶段couple with 基于模型的解码阶段，自动编码器

3d手部姿势和形状估计的监督有限，二维注解很难处理深度和比例的模糊

【8】深度图进行额外的弱监督，加强二维监督

【37】生物力学约束帮助网络输出可行的三维手部配置

自监督的三维手势估计方法；使用三维脸部的可变性模型（3DMM）脸部重建方法

手部自监督的三维重建：手相比于脸，不平坦不对称

方法实现：

MANO：姿势形状参数映射到三角形网格上，低维参数化模型，从两千多个三维手部扫描中学习

二维关键点估计器，用于联合二维关键点估计，被检测二维关键点监督 -》促进3d重建

直观的自动编码器进行证明自监督框架的可行性

在皮肤上添加约束进行生物力学可行性

证明（有噪音的）二维监督的可行性

自我监督训练中建立的纹理模型是否有助于形状分析

深度手部编码：

使用EfficientNet-b0骨干网，编码为几何语义代码向量x，纹理语义向量y

x = ( θ, β, s, R, T ) . 姿势，形状，范围，旋转角度，转变

y = ( C, L ) .手部纹理，场景亮度

生成相机空间的有纹理的三维手部模型

基于模型的手部解码：

姿势和形状表示，手部表面是流形三角形网格M≡(V, F)，n=778，V顶点V = {vi∈R3|1 ≤ i ≤ n}，面F表示顶点在手面中的连接

网格拓扑mesh topology, a set of k = 21 joints，三维关节J可以从网格三维图中得到

手部网格和关节是通过MANO从姿势、形状向量恢复出来，目前是在hand-relative坐标系中，要表示在camera坐标系中，需要

M = sM 0 R + T

J = sJ 0 R + T .

二维的手部表示：相机投影，通过神经渲染器renderer

关节投影，

额外的二维联合估计：虽然三维关节到二维的投射能保留结构信息，但失去了关键点独立性

使用沙漏网络和intergral pose回归进行关键点估计

总损失公式

E = w 3 d E 3 d + w 2 d E 2 d + w con E con

几何对齐：基于检测到二维关键点的几何配准损失Egeo，其中Eloc使用SmoothL1损失，对局部调整更加稳健，因为探测关键点与MANO关键点的拟合程度不高

测光一致性：渲染的彩色图像与输入的I前景手相吻合Ephoto

正则化条款：Eregu

2D-3D一致性：Econ

评估数据集：FreiHAND、HO-3D

指标：

MPJPE：每个关节的平均位置误差

AUC：曲线下面积

PCK：正确的关键点百分比

更高的网格重建性能，结果更准确

三维重建网络在ImageNet上预训练，二维关键点估计器和二维-三维损失器选择性使用

总结成果：

精确输出3D关节、网状结构、纹理；额外的可训练的二维关键点估计器；手部纹理学习模块；基准测试，性能与完全监督学习相当

重建网络在来自二维手部关键点检测的嘈杂监督源下表现良好，同时
能够从单视角手部图像中获得准确的三维手部重建。
单视角的手部图像中获得准确的三维手部重建。

实验结果表明实现了与先进的完全监督方法相媲美的性能。

至于未来的研究，有可能将参数化的手部网格扩展到其他表示（例如，有符号的距离函数），以获得更详细的手部表面表示。

改进处

单视图监督不力，在极端姿势、严重遮挡等情况下准确度很低，可能是二维关键点监督不力

更准确的皮肤反射建模可以帮助手部重建更高的保真度。

消融实验说明纹理建模对于形状重建有明显改善，可能是皮肤反射模拟不准确

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
3D手势重建-自监督学习Model-based 3D Hand Reconstruction via Self-Supervised Learning

自监督学习A survey on Semi-, Self- and Unsupervised Techniques in Image Classification （Similarities, Differences & Combinations）3D注释：密集的手部扫描，模型拟合的参数化手部网格，人类主食的3D关节在一些应用中，手部纹理也需要注意大部分方法重建3D手需要在训练时进行3D注释（贵）本文：S2HAND，估算姿势、形状、纹理、相机视角从图中获..
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。