ICCV2019光度立体论文SPLINE-Net: Sparse Photometric Stereo through Lighting and Normal Networks.阅读笔记.

前言

由于目前研究方向是光度立体方向,并且最近要和双目,深度学习结合一下,就找了最新的论文来看,这篇是iccv2019北大施柏鑫团队的最新论文,和之前一样,重点依然放在用深度学习解决非郎勃模型的光度立体问题上,下面结合自己的想法对这篇论文做个总结。

首先写几个相关知识点:
漫反射又称朗勃(Lambert)反射,也称各向同性反射。这是经典光度立体用到的模型。而事实上现实世界很难有理想的漫反射模型,大多都是非郎勃模型。
BRDF可以表现镜面反射(镜面),漫反射(朗勃表面),以及介于二者之间的方向反射(非朗勃表面)。有两种类型的BRDF,isotropic(各向同性)和anisotropic(各向异性)。
关于各向同性,查询资料以后理解如下:若某点处的辐射率不随方向而变,则称该点的辐射为各向同性辐射,若某辐射面所有点处的辐射都是各向同性的,则称该辐射面为各向同性辐射面。各向异性相反,而且相应就是非Lambert表面了

左边是isotropic,右边是anisotropic。本文是用的是各向同性的BRDF光照模型。

摘要

本文利用生成网络(SPLINE-Net)通过光照插值和法线估计来解决稀疏光度立体问题。 SPLINE-Net包含一个照明插值网络,该照明插值网络以稀疏的一组灯光作为输入来生成密集的照明观察图,然后是一个法线估计网络以估计表面法线。这两个网络都受到所提出的对称和非对称损失函数的共同约束,以实施各向同性约束并执行全局照明效果的异常排除。通过仅使用十个不同光源的图像而不是使用近百个图像,已验证SPLINE-Net优于常规BRDF的光度学立体测量方法。

本文想要解决的问题

经典的光度立体假设理想的Lambertian图像形成模型没有全局照明效果(例如,相互反射和阴影),而这种假设偏离了现实情况,并阻碍了光度学立体像能够处理现实世界的对象。

为了使光度学立体实用,主要困难在于处理具有一般反射率和全局照明效果的对象。可以通过探索双向反射分布函数(BRDF)表示形式和一般的BRDF属性来建模照明和表面法线的非朗伯内在联系,或通过抑制全局效应比如将它们视为异常值来实现这些目的。

目前其他论文的研究的结果显示:对于随机约有100个定向光才能达到对具有常规材料的对象的合理良好的法线估计,因为需要在密集的灯光下进行多照明观察,以适合解析BRDF模型中的参数,分析常规BRDF属性,观察足够的内点和离群值并确保训练神经网络的收敛性。即目前还没有方法能解决如何通过少量图片来进行法线估计的问题。

因此本文想要解决的就是给定具有稀疏光集(例如10个)的常规BRDF光照模型的情况下,如何高精度估计物体的法向。本文将其称为稀疏光度立体。

解决办法

本文提出了照明插值和法线估计网络(即SPLINE-Net)来解决稀疏光度立体问题。 SPLINE-Net由两个子网络组成:
首先是照明插值网络(LI-Net),用于在输入光源稀疏的情况下生成密集的观测值,做法就是:将稀疏的观察图作为损坏的绘画处理,并通过插值算法修复生成密集的观察图。如下图所示,左边是九个输入光源的稀疏观察图,右边是由它生成的密集的观察图
在这里插入图片描述
法线估计网络(NE-Net),用于从生成的密集度估计表面法线观察。
在这里插入图片描述
关于观察图的概念:是作者从另一篇论文中引用的一种描述
观察图Observation maps
表面法线贴图上的每个点都对应一个观察图(如图3(a)所示)。这种图上的元素描述了在不同照明方向下观察到的辐照度值。这些照明方向映射到元素的位置,这是正交投影。如图3(a)所示,可以将密集的观测图视为通过将半球表面投影到其底面而生成的,其中半球表面上的每个点都表示照明方向,并且其投影值描述了在该照明条件下的辐照度值。这样的投影关系使得作者引入各向同性来缩小SPLINE-Net的解空间。即认为沿法线对称的两个光照方向在一点的辐照度值应该相同。
在这里插入图片描述
一般材料的各向同性BRDF具有以下特性
如果照明方向关于v和n所跨越的平面对称,则反射率值在数值上相等,如图3(a)所示。考虑到照明方向与观察到的辐照值位置之间的一对一映射关系,如果这些值的位置相对于观察图中表面法线投影的轴对称分布,则这些值在数值上相等,如图3所示( b)。由于观察图是逐像素生成的,因此这种对称图案可能会被全局照明效果破坏。因此,不可预测的形状会产生阴影或相互反射,从而导致观察图上的辐照值突然变化。
在这里插入图片描述
这个图的1和2是没有全局照明效果影响的的观察图,表现出各向同性的特点,3456是被全局照明效果破坏的效果,3和4是由阴影的影响,5和6是相互之间的反射影响

贡献

与使用大量数字(例如96个)的最新方法相比,经过验证的SPINE-Net能够在给定少量输入图像(例如10个)的情况下实现出色的法线估计精度,从而大大减轻了数据捕获和处理的负担。本文的贡献主要有两点:

  1. 使用SPLINE-Net,通过照明插值和法线估计的集成学习过程来解决使用少量图像的一般BRDF光照模型(非朗伯表面)的光度立体问题
  2. 公式化对称和非对称损失函数,以利于各向同性约束和全局照明效果的异常排除,从而便于学习照明插值和法线估计。

SPLINE-NET框架

在这里插入图片描述
上图就是本文提出的SPLINE-Net的框架。照明插值网络形成密集的观测图D中给出稀疏观察图S作为输入。法线估计网络在给定S和D作为输入的情况下估计表面法线n。 两个网络都以有监督的方式进行训练,其中已知观测图D和表面法线n的GroundTruth。

LI-NET基本思想是基于可学习的属性(例如空间连续性),修补稀疏的观测图并获得密集的观测图。 LI-Net具有出色的图像生成能力,因此采用编码器-解码器结构进行设计。
LI-Net的损失函数公式为:
在这里插入图片描述
其中第一项是重建误差,后两项分别是对称和非对称损失函数
在这里插入图片描述
重建误差使用L1距离计算,其中D是估计的密集观察图,Dgt,ngf是密集观察图和法线的的GroundTruth,Ms是表示S的非零值位置的二进制掩码 ,◦表示逐元素乘法。

NE-NET是参考另一篇文献中的一个网络实现的,那篇文献提出了这里用到的观察图,并且那个网络具有建模观察图和表面法线之间关系的出色能力
NE-NET的损失函数公式为:
在这里插入图片描述
第一项重建误差为:
在这里插入图片描述
这里LI-Net和NE-Net以交替迭代的方式进行训练,其中在优化一个网络的同时修复另一个网络。 具体来说,就是在更新NE-Net五次参数之后更新LI-Net一次参数。每个网络的loss函数由重建loss,对称loss和非对称loss组成。

为了进一步缩小密集观测图的照明插值的求解空间,以促进对表面法线的准确估计,作者提出了对称和非对称损失函数:
对称loss:根据一般反射的各向同性的性质推导出来的,这种性质限制了所生成的观测图上的像素值是由对应的表面法线确定的轴的对称分布。实现BRDF的各向同性约束,确保在稀疏图生成稠密观察图的时候能保证沿法线对称,因为观察图是每个像素在各个光照情况下的辐照度值,因此沿法线对称的两个光照方向在一点的辐照度在值上应该相等
在这里插入图片描述
不对称loss(抑制全局照明效果,保证对称像素之间的差异):来自具有全局照明效应的污染观测地图,它限制了对称分布像素值之间的差异为一个非零值。
在这里插入图片描述

实验和实验结果

灯光设置:
本文将灯的数量设为10个,并使用10个随机采样的灯作为训练和测试的输入。

数据集:
本文使用其他论文提供的CYCLES PS数据集作为我们的训练数据。有45种训练数据,包括15种反射率的形状,分别为3类(漫反射,金属和镜面反射)。为了覆盖尽可能多的照明条件,文章为这些数据集中的每个测试数据构造了100个实例,每个实例包含在10个随机选择的灯光下照明的图像,相当于数据增广。

评价标准:
定量结果是平均角度误差再取所有值的平均值,本文中使用的度量单位是角度误差(以度为单位)(所有表格中均省略了单位)。

合成数据集CYCLES PS实验结果:
在这里插入图片描述
M表示金属,S表示镜面。从表中可以看出,与镜面材料相比,金属材料误差普遍更大,更具挑战性。即使对于包含很少全局照明效果的简单形状(SPHERE),所有方法也无法估计金属材料的准确表面法线。但是对比来看本文方法的总体性能要比第二的方法好得多。
但是有趣的是,在使用镜面材质的简单数据SPHERE上,两种传统方法IW12和ST14优于其他方法。但是,对于复杂的形状(PAPERBOWL和TURTLE),它们的性能会下降,而文章的方法始终可以达到最佳性能。
在这里插入图片描述
图中的直观比较进一步验证了本文方法的有效性。可以看出两种传统方法IW12和ST14在简单模型上可以估计的很好,但是对于形状更复杂的大多数区域,却和其他方法一样估计的不好,而本文的方法不仅可以更稳固地处理镜面反射率(SPHERE),并且对于形状更复杂的大多数区域(PAPERBOWL)始终如一地产生最佳估计。优异的性能表明,本文方法有效地解决了使用少量图像处理普通BRDF的光度立体问题。

真实数据集DILIGENT实验结果:
在这里插入图片描述
上表可以看出除了BALL和POT1,与两种传统方法LS 和IW12 相比,结果相似或更差。原因是这两个数据是漫反射的,也就是符合经典光度立体所使用的的光照模型的。因此即使对于少量观察到的辐照度值,具有Lambertian假设的传统方法也很合适。但是,本文的数据驱动方法在模型优化期间会均匀地考虑一般反射率和全局照明效果,因此可能不适合简单形状的Lambertian曲面。

在这里插入图片描述
图中显示了对数据COW和POT1的直观比较。本文的方法对金属材料(COW)提供了更为准确的结果,与合成数据的结果一致(表1)。大多数比较方法和本文的方法都可以对POT1的中心区域进行准确的估计,但是,对于包含相互反射或投射阴影的边界(例如壶嘴和水壶架区域),本文对阴影和反射处理采取处理的方法具有显着优势。

消融研究

本节将进行消融研究,以进一步研究SPLINE-Net中重要组件的贡献。考虑到NE-Net和CNN-PS中相同的网络结构,以及SPLINE-Net由LI-Net和NE-Net组成,作者比较了SPLINE-Net没有对称loss或非对称loss(用CNN-PS 表示为“nets w/o loss” ,以验证LI-Net的有效性。通过比较nets w/o loss的性能与加上对称loss(称为“nets with Lloss”)的性能,作者验证了增强各向同性特性的有效性。带有Ls的Nets和SPLINE-Net之间进行的比较是为了验证考虑全局照明效果的有效性。本节中使用与第4.2节中相同的设置和相同的测试集进行评估。

定量性能报告在表中可以看出,无损失的Nets明显优于CNN-PS,这证明了使用LINet来帮助估计表面法线并防止直接拟合稀疏观测值到表面法向会产生过拟合的方法的有效性。提出的对称损耗和非对称损耗有助于提高整体性能。下图显示了由本文的方法使用不同设置生成的观测图的示意图。本文的方法(具有Ls的网络和SPLINE-Net)即使GroundTruth不光滑也成功地修补了受全局照明效果损坏的区域。下下图中的视觉比较直观地显示了本文方法的每个组件的优点,这些优点有助于简化表面法线的准确估计。
在这里插入图片描述观察图的图示。从左至右各列:输入(10个未知方向的光),不带损失的SPLINE-Net,具有对称损失Ls的SPLINE-Net,SPLINE-Net和GroundTruth(1000盏灯)生成的map。
在这里插入图片描述
DILIGENT 的GOBLET(顶部)和READING(底部)上的法线图和角度误差图(以度为单位)的比较。

结论

本文提出了SPLINE-Net,以解决使用少量图像的具有一般反射率和全局照明效果的光度立体问题。 SPLINE Net的基本思想是从稀疏的灯光集中生成密集的灯光观察值,以指导表面法线的估计。所提出的SPLINE-Net受到所提出的对称和非对称损失函数的进一步约束,以实施各向同性约束并执行全局照明效果的异常排除。

在这里插入图片描述
局限性。即使基于深度学习的方法在非朗伯反射方面取得了优异的性能,但对于漫反射表面,其性能却下降了,而传统朗伯假设的方法可以很好地拟合这些表面。
上图说明了在两个具有漫反射表面的真实数据上的四种传统方法和三种基于深度学习的方法(包括PS-FCN [9])的结果。这样的结果与表2中的BALL和POT1的结果一致,表明深度学习方法对漫反射表面的局限性。在基于深度学习的方法中同时充分考虑漫反射表面的同时保持非朗伯表面上的性能优势可能是进一步的工作之一。

  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值