文章目录
论文链接:https://arxiv.org/pdf/2010.07492.pdf
解决什么问题?有什么贡献
首先对辐射场中的形状与辐射量之间的歧义性进行了分析,并且分析得到说那为什么NeRF可以避免这种歧义性。
第二,将原始的NeRF扩展到一个大尺度无边界的场景中。在这一点中,主要是通过将场景划分为前景与背景来实现的。
shape与radiance之间是有可能存在歧义性的
在一系列训练图像中,优化一个5D函数,在不加任何正则化的情况下,有可能会面临退化解的问题,也就进一步的导致了在新视角生成时潜在的failure cases。这种情况我们将其命名为 shape–radiance歧义性,示意图见下:
具体来说,对于不正确的场景几何 S ^ \hat{S} S^,训练影像也可以蛮好的fit(主要是通过view-dependent的radiance,来实现真实几何所能体现出来的视觉效果)。
而NeRF对这种歧义性进行了较好的处理。在后续的介绍中将会详细提及。
NeRF在大尺度场景下存在什么问题?
对于NeRF来说,要么仅仅只能再volume中fit场景中较小的一部分,完全抛弃背景的元素,要么就会对volume中大部分都去进行fit,但是会导致整体的细节信息都有所欠缺。
因此,文章通过一种简单但有效的方式对这个问题进行解决,即,将场景划分为前景与背景。
示意图见下:
怎么解决的?
分析:NeRF的潜在失效情况及其的处理方式
先回顾下NeRF在视角下进行优化的数学表达:
min σ , c 1 n ∑ i = 1 n ∥ I i − I ^ i ( σ , c ) ∥ 2 2 \min _{\sigma, \mathbf{c}} \frac{1}{n} \sum_{i=1}^{n}\left\|I_{i}-\hat{I}_{i}(\sigma, \mathbf{c})\right\|_{2}^{2} σ,cminn1i=1∑n
Ii−I^i(σ,c)
22
当给定射线: r = o + t d r = o + td r=o+td时,这条射线在影像上的颜色可以表达为:
C ( r ) = ∫ t = 0 ∞ σ ( o + t d ) ⋅ c ( o + t d , d ) ⋅ e − ∫ s = 0 t σ ( o + s d ) d s d t \mathbf{C}(\mathbf{r})=\int_{t=0}^{\infty} \sigma(\mathbf{o}+t \mathbf{d}) \cdot \mathbf{c}(\mathbf{o}+t \mathbf{d}, \mathbf{d}) \cdot e^{-\int_{s=0}^{t} \sigma(\mathbf{o}+s \mathbf{d}) d s} d t C(r)=∫t=0∞σ(o+td)⋅c(o+td,d)⋅e−∫s=0tσ(o+sd)dsdt
为了补偿网络的spectral bias【什么意思?】,以及合成更加锐利的影像,NeRF使用了位置编码,具体为:
γ k : p → ( sin ( 2 0 p ) , cos ( 2 0 p ) , sin ( 2 1 p ) , cos ( 2 1 p ) , … , sin ( 2 k p ) , cos ( 2 k p ) ) \gamma^{k}: \mathbf{p} \rightarrow\left(\sin \left(2^{0} \mathbf{p}\right), \cos \left(2^{0} \mathbf{p}\right), \sin \left(2^{1} \mathbf{p}\right), \cos \left(2^{1} \mathbf{p}\right), \ldots, \sin \left(2^{k} \mathbf{p}\right), \cos \left(2^{k} \mathbf{p}\right)\right) γk:p→(sin(20p),cos(20p),sin(2<