虞老师在PRCV2021的Talk-Neural Human Reconstruction:From Rendering to Modeling

背景

PRCV2021大会上,虞老师演讲了关于人体重建的最新的一些工作,会议链接,在第2时20分,看完不禁感叹一句,大佬就是大佬,帅气逼人~

演讲内容

虞老师由热题元宇宙中的Meta Human引入话题,这个talk依次讲了Meta Human的应用、传统三维重建方法、用深度学习重建人的身体、人脸、人手、毛发的方法。

应用

Meta Human现在和未来将被应用于电影制作,游戏制作、VR、AR,运动,我觉得未来元宇宙的教育场景也是一种容易应用的趋势。
metahuman应用

传统三维重建方法

虞老师主要介绍了两种常用的传统三维重建方法,分别是SFM,photometric Stereo, 关于三维重建方法的分类可以看我以前的一篇博客。

stereo SFM 这种方法的重要思想是拍摄很多图片,计算每张图像拍摄的相机的位姿,提取特征,求得每个相机之间得变换,最后求得每个点的三维位置,最后得到物体的三维几何。这种方法需要大量的图片,但不一定图片越多重建效果越好,原因是每个相机的一小点的误差都会影响整体的重建效果,系统会认为这种误差是重建的细节,最后导致误差累计,反应在重建效果上。传统重建方法1
Photometric Stereo 这种重建方法不需要大量的相机,用一个固定的相机,利用多个光源,求得法线信息,要求对材质有要求,漫反射。重建一个人的脸给这个人搭建一个系统,实用性不高。缺点:人的皮肤是油的、半透明的,会带来很多误差。

重建人的身体

与其重建,不如渲染:论文链接Multi-view Neural Human Rendering
目的:利用高质量的图片,进行自监督的训练,即使点云质量很差,也能恢复出好的三维模型。
原理:1、从点云提取特征;2、把点云投影到拍摄的图像下;3、U_Net学习,把点云图像质量的变得更好,把抠像的mask学习好4、通过学mask重建一个新的几何 5、融合老的几何,得到一个好的几何。
网络
重建融合
扩展:用六个相机(RGBD)的到稀疏点云,用神经网络的方法重建。论文链接Few-shot neural human performance rendering from sparse rgbd videos——》用六个GRB相机做同样的事;论文链接NeuralHumanFVV: Real-Time Neural Volumetric Human Performance Rendering using RGB Cameras
——》用单个相机做同样的事,论文链接ChallenCap: Monocular 3D Capture of Challenging Human Performances using Multi-Modal References;人在动作过程中做一个多视角的融合。

重建人脸

人脸和手指一样,是一个非刚体的重建,在重建立是比较困难的。
用单张图片学习出三维脸模型的方法,DFDN:Photo-Realistic Facial Details Synthesis From Single Image ;原理:输入有三维结构的数据作为groundtruth 和单张人脸的数据训练
有真值得人脸重建
除此之外,虞老师又介绍了动态的3D扫描,多相机多光源的采集系统采集重建超高清数据。用相片的材质和光源去猜测法向,渲染图片。(其实没听懂)
然后分享了一个单张图片的多视角的渲染paper,SofGAN: A Portrait Image Generator with Dynamic Styling.

三维光线relighting的应用,Neural Video Portrait Relighting in Real-time via Consistency Modeling

人手重建

现有的一些重建手的模型都不是很逼真,例如,SMPL、MANO、HTML。不逼真的模型
手的骨头,肌肉的三维结构很难重建,虞老师他们利用MRI(核磁共振) Scans,把手放在模具里固定再重建。有了骨骼之后可以做一些绑定形变的工作。分享一项用单张图片重建手的几何(骨头)工作,PIANO: A Parametric Hand Bone Model from Magnetic Resonance Imaging
单张图片恢复手三维结构

重建头发

头发是三维重建最难作的,没有一个固定的几何结构,所以很难。其中一个工作用一个隐式表达来表达头发–神经网络,先把头发当成一个几何投影RGB,用RGB图像训练几何。Neural Opacity Point Cloud
NOPC头发重建
最后介绍了非常厉害了一个表达,Neural Radiance Field,他的思想是:不管有没有几何,我拍很多照片放到神经网络里,输入是每一个光线(位置和方向),输出是沿着这个光线的RGB和距离。和传统几何表示不一样,没有一个显式的几何。NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
在这里插入图片描述
最近的一项工作使用Nerf产生毛发,Convolutional Neural Opacity Radiance Fields

最后思考

虞老师认为很有可能未来神经网络的表达是一个三维主流的表达。神经网络还可以在同一个场景里叠加,下面最近的一项工作Editable Free-Viewpoint Video using a Layered Neural Representation在这里插入图片描述

发展趋势

虞老师最后引用了CMU(美国卡内基梅隆大学)的教授Yaser Sheikh的一个发展趋势的分析,现有的重建工作,有两个发展,一个是用复杂的相机系统,大量的数据重建高质量模型。另一个是用廉价的数据中间不太好的重建。虞老师认为未来发展趋势用神经网络使得廉价的数据重建出好的模型。
发展趋势

文档链接

最后整理一下talk里提到的12篇论文,百度网盘链接~链接:https://pan.baidu.com/s/11BEfki4sJqMCHoVH-n3hCQ
提取码:60zq

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值