推理成本降低48倍！1张GPU就能让静态图像动起来 | 格拉兹科技大学&Facebook

3Ｄ视觉工坊

于 2021-08-12 07:00:00 发布

阅读量280

点赞数

文章标签：人工智能计算机视觉机器学习 xhtml 深度学习

鱼羊发自凹非寺
量子位报道 | 公众号 QbitAI

自打伯克利和谷歌联合打造的NeRF横空出世，江湖上静态图变动图的魔法就风靡开来。

不过，想要像这样依靠AI来简化3D动态效果的制作，算力开销可不小：

以NeRF为例，想要在1440×1600像素、90Hz的VR头盔中实现实时渲染，需要37 petaFLOPS（每秒10^15次浮点运算）的算力——这在目前的GPU上根本不可能实现。

怎么降低点计算复杂度？

现在，来自奥地利格拉兹科技大学和Facebook的研究人员，就想出一招：引入真实深度信息。

就这一下，很快的，推理成本最高能降低48倍，并且只用1个GPU，就能以每秒20帧的速度实现交互式渲染。

画质什么的，也没啥影响，甚至还能有所提升：

具体是怎样一招，咱们往下接着聊。

基于深度预言网络的NeRF

首先需要说明的是，NeRF，即神经辐射场（neural radiance field）方法，是沿相机射线采样5D坐标，来实现图像合成的。

也就是说，在NeRF的渲染过程中，需要对每条射线都进行网络评估，以输出对应的颜色和体积密度值等信息。

这正是造成NeRF在实时渲染应用中开销过大的主要原因。

而现在，格拉兹科技大学和Facebook的研究人员发现，引入真实深度信息，只考虑物体表面周围的重要样本，每条视图射线（view ray）所需的样本数量能够大大减少，并且不会影响到图像质量。

基于此，他们提出了DONeRF。

DONeRF由两个网络组成，其一，是Sampling Oracle Network，使用分类法来预测沿视图射线的最佳采样位置。

具体来说，这个深度预言网络通过将空间沿射线离散化，并预测沿射线的采样概率，来预测每条射线上的多个潜在采样对象。

如下图所示，3个颜色通道编码了沿射线的3种最高采样概率，灰度值表明其中可能只有一个表面需要被采样，而彩色数值则表明这些样本需要在深度上展开。

其二，是一个着色网络，使用类似于NeRF的射线行进累积法来提供RGBA输出。

为了消除输入的模糊性，研究人员还将射线转换到了一个统一的空间，并使用非线性采样来追踪接近的区域。

另外，在两个网络之间，研究人员对局部采样进行扭曲，以使着色网络的高频预测被引导到前景上。

本文还引入了视图单元（view cell）的概念。一个视图单元被定义为一个具有主要方向和最大视角的边界框。

简单来说，这个边界框能够捕捉到所有源于框内、并且在一定旋转范围内的视图射线。

利用这样的方法，就可以对大场景进行分割，解决NeRF没有办法应用于大场景的问题。

此外，较小的视图单元减少了场景中的可见内容，因此可能会进一步提高成像质量。

对比结果

所以，DONeRF相较于前辈NeRF，到底能快多少?

不妨直接来看对比结果。

在相似的质量下，NeRF总共使用了256个样本。而DONeRF只用到了4个样本，在速度上可以实现20-48倍的提升。

并且在成像细节方面，DONeRF的图像边缘更为清晰。

研究人员还指出，在16个样本的情况下，从峰值信噪比（PSNR）来看，几乎所有场景中DONeRF都超越了NeRF。

传送门

论文地址：
https://arxiv.org/abs/2103.03231

项目地址：
https://depthoraclenerf.github.io/

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

重磅！3DCVer-学术论文写作投稿交流群已成立
扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近2000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用，麻烦给个赞和在看~

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。