浅谈单图像三维重建算法

关注公众号,发现CV技术之美

本文简单带大家看一下单图像三维重建相关的论文。写这篇文章算是对之前的一点总结。因为之前没有做过三维视觉,也没有钻研过生成对抗网络,中间实在是吃了不少苦,基本是边补基础知识边看论文,现在基本感觉看过一遍了,简单的把这些论文都拿出来说一说,算作有个收尾。如果说的不好,哪里理解错了,也请各位在评论区批评指教。

 单图像三维重建算法介绍

在开始讨论之前先说一下为什么要做单图像三维重建,原因其实很直观。总结起来就是两个字,“需要”。我们很需要这类应用,如果可以做出来,不论是学术上、产品上都有很大价值。

比如像是国外的英伟达(NVIDIA)、脸书,国内的阿里巴巴达摩院、快手做的虚拟人、虚拟场景等的应用。但是三维重建不好做,因为三维数据真值很难获得,或者收集起来很花钱。

所以这就带来一个问题,如何以成本更低的方式完成三维重建。其中的一个思想是,我们能不能使用二维数据来去做一个弱监督学习,曲线救国实现这个任务。这个方式被证明可以取得很好的效果,所以在接下来的讨论里面,我们会以此为基础,给大家介绍单图像做三维重建的一些方法。

 单图像三维重建算法是怎么实现的

从整体来看,最近两年顶会的三维重建算法绝大多数都是基于深度学习的。在深度学习中,又进一步分出了三条主要路径,这三条路径分别是

1)先对单图片中的目标物体进行建模,直接取得其三维形体(template), 之后再使用另一个模型去上色并处理光照。整个流程不是一个端到端的流程(这里并不是说不能做到单模型统一,只是目前没论文这样做),需要分开训练。

2)直接使用给定的先验形体(prior template)进行体态学习,同时进行采样(UV sampling)来学习色彩特征,全部叠加到一起就可以实现三维型体重建。

主要的实现方式是,使用可导渲染器(也叫神经渲染器,英文是neural rendering)去渲染然后再后处理,来生成某一个三维形态投射到二维的投影,拿到投影再生成分割图,关键点坐标,RGB像素等等,之后去优化分割、以及染色分支。这里提到的先验形体,一般指的是高对称性三维物体,比如球体。

3)使用神经辐射场(NERF)外加体素渲染进行三维结构的学习,可以直接学习到物体的形体以及色彩。使用这种方式进行三维重建是现在的学术界主流,很多去年相关的论文基本都是以此为技术核心发表。目前比较成型的探索结果包括虚拟人形象以及动物形象等。

相比较其他算法,基于NERF的算法一般可以生成更高像素质量、更高分辨率、更高清晰度的虚拟形象。但是这种算法也是有自带的问题,就是不能生成基于特定输入的图像(因为这类算法基于生成对抗网络),所以对于产品化而言,这种方案还是有进一步提升的需要。其中一种可能的方式就是去做3D GAN inversion,也就是进行图像编辑。

 单图像三维重建具体算法

以下篇幅我们来看一下这三种方案都对应有哪些论文,他们各自的都提出了什么方法来解决具体的问题。

路径一:形体建模+色彩渲染

这一套方案采用分阶段的方式,希望能够将三维重建分拆两个子任务,也就是形体建模+色彩渲染。每个子任务引入一个子模型来去建模,同时使用两个sota的算法分别把形体和色彩做到极致。

这样子的话既可以控制难度,对于各个模块又可以精调,可以做到合适的取舍。比如你更希望形体做的出色,那么对于色彩的要求可以降低,对应模型的复杂度也可以下调,反之亦然。

这里我们首先看一下WLDO[1]。这篇论文中作者研究了怎么重建动物(主要是狗

  • 2
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值