开眼看世界(人眼NeRF)：使用人眼图像进行重建辐射场

最新推荐文章于 2024-10-16 11:15:00 发布

自动驾驶实战(AIFighting)

最新推荐文章于 2024-10-16 11:15:00 发布

阅读量891

点赞数 7

分类专栏： github 文章标签：自动驾驶

本文链接：https://blog.csdn.net/laukal/article/details/141307301

版权

github 专栏收录该内容

45 篇文章 2 订阅

订阅专栏

开眼看世界(人眼NeRF)：使用人眼图像进行重建辐射场

Abstract

人眼的反射特性是一种未被充分利用的信息源，可以揭示周围世界的样貌。通过拍摄移动中的人物眼睛，我们可以通过眼睛中的反射捕捉到摄像机视线之外的场景的多个视角。在本文中，我们利用包含眼睛反射的肖像图像，重建出摄像机视线之外的辐射场。这项任务具有挑战性，因为两点：1）准确估计眼睛姿态非常困难，2）虹膜纹理与场景反射的外观相互交织。为了解决这些问题，我们的方法共同优化了角膜姿态、描述场景的辐射场以及观察者的虹膜纹理。此外，我们提出了一种针对虹膜纹理的正则化先验，以提高场景重建质量。通过在合成和真实世界的捕捉实验中，测试不同眼睛颜色和光照条件下的人物，我们展示了通过角膜反射恢复辐射场的可行性。

代码地址：https://world-from-eyes.github.io/

Instrodution

人眼是一种了不起的器官，不仅能够实现视觉，还包含了关于周围世界的宝贵信息。尽管我们通常利用自己的眼睛作为透镜，将光聚焦在视网膜上的感光细胞上，但如果我们观察其他人的眼睛，我们也可以捕捉到从角膜反射的光。当我们使用相机拍摄他人的眼睛时，我们实际上将他们的眼睛转变成整个成像系统中的一对镜子。由于从观察者眼睛反射的光源与到达其视网膜的光源相同，我们的相机可以形成包含观察者所见世界信息的图像。
之前的研究探索了从单个图像中手动指定的两只眼睛的对应关系中恢复观察者所见世界的全景图像和简单的3D结构，如盒子。后续工作进一步探索了个人识别、检测抓握姿势、聚焦物体估计、光照估计和重新照明等应用。鉴于最近3D视觉和图形学的进展，我们不禁想知道：我们是否可以不仅仅重建一个单一的全景环境图，简单的3D结构或识别模式？是否可以恢复观察者所见的3D世界？
在本文中，我们通过从一系列眼睛图像中重建辐射场来回答这些问题。我们从眼睛在自然移动中捕捉/反射多视角信息的洞察开始，借鉴了提出的经典成像模型，并将其与辐射场重建的最新进展（由Neural Radiance Fields (NeRF) 结合起来，以实现高质量的视图合成。
然而，尽管概念上很简单，但从眼睛图像中重建NeRF在实际操作中极具挑战性。第一个挑战是将角膜反射与人眼虹膜纹理分离。与通常假设的清晰场景图像不同，我们获得的眼睛图像本质上与虹膜纹理混合在一起。这种组合扰乱了像素的对应关系，并使重建过程复杂化。第二个挑战是角膜姿态估计。与标准NeRF捕捉设置不同，我们的方法使用静止相机，并从头部运动下的眼睛图像中提取多视角线索，如图2所示。因此，我们需要从图像观察中准确估计眼睛的3D位置和方向。然而，由于肖像中眼睛的尺寸较小，这非常困难。
了解决这些挑战，我们通过加入两个关键组件来重新利用NeRF进行眼睛图像的训练：a) 虹膜纹理分解，它利用简单的径向先验来促进从场景的辐射场中分离出虹膜纹理，b) 6自由度角膜姿态优化，它提高了在眼睛尺寸较小的情况下的姿态估计精度。
为了评估我们方法的性能和有效性，我们生成了一个复杂的室内环境合成数据集，其中的图像捕捉了具有真实虹膜纹理的合成角膜的反射。我们还在现实世界中实现了一个多物体的捕捉设置，以获取角膜图像。我们在合成和现实世界的眼睛图像上进行了广泛的实验，以验证多种设计选择。

3.Method

3.1通过反射重建辐射场

可以通过最小化从捕捉图像中获取的真实像素值与渲染颜色之间的光度损失来训练辐射场。每个像素颜色是通过使用沿相机光线采样点的颜色和密度值进行体渲染计算的。与像素相关的光线从相机原点O开始，视线方向为。然而，在我们的设置中，我们感兴趣的是重建从人的眼睛反射的场景的辐射场。在图4中，我们展示了如何利用从眼睛反射的光线。反射光线从摄像机光线与角膜在O’处的交点开始，而不是使用O和的方向。我们使用标准反射公式显式计算反射光线：

其中是O’处的法线。由于我们将角膜几何形状建模为椭球体，因此我们直接使用封闭形式的椭球体光线交点公式计算交点和法线。

3.2 虹膜纹理分解

由于目标图像是从角膜反射的场景，直接训练NeRF会导致较差的视图合成结果，因为角膜图像包含了反射（场景）和透射（虹膜纹理）成分。为了仅在辐射场中恢复场景，我们共同优化了一个二维场Φ来建模虹膜纹理。随着人移动，虹膜纹理在不同视图中保持不变，而场景反射则会变化。因此，我们使用一个跨输入图像共享的纹理场。由于我们将虹膜建模为角膜后方的一个平坦的圆形平面，我们可以通过在三维空间中执行光线-平面交点计算直接计算出虹膜平面上的二维坐标。然而，当场景的一部分在训练视图中未显示出显著运动时（例如，主体的头部运动有限），场景的部分内容可能会被“吸收”成为虹膜纹理的一部分而不是场景。为了解决这个问题，我们提出了一种径向正则化，鼓励恢复的纹理具有径向对称性。虹膜远非完美的旋转对称。然而，我们的观察是，随着虹膜的旋转，颜色的变化很小。我们利用这一观察，通过惩罚旋转不一致的像素，来正则化我们在虹膜纹理中学习的颜色。在每一步中，对于每个点p，我们通过计算色环的平均颜色μr和颜色环的标准差σr来经验估计色环的颜色分布。然后，我们计算颜色的第10百分位和第90百分位范围[c10, c90]。如果一个点的颜色偏离[c10, c90]的范围至少一个标准差，我们仅惩罚模型使其匹配平均值。

3.3 角膜姿态优化

由于在捕获的图像中角膜的尺寸较小，角膜姿态和法线估计不可避免地会有一些误差。使用错误的姿态进行训练会显著影响辐射场重建的质量。为了减轻姿态误差，我们对每个角膜的6DoF（六自由度）姿态进行优化。对于每个角膜，我们优化一个变换矩阵T = [R, t] ∈ SE(3)，其中R ∈ SO(3)表示旋转，t ∈ R3表示平移。我们在训练期间优化角膜姿态，与之前关于使用噪声姿态训练NeRF的工作类似，同时进行虹膜纹理恢复和辐射场重建。我们使用公式2初始化角膜姿态的平移分量，即Z = depthavg, X = x(Z/f), Y = y(Z/f)，其中x和y是眼睛中心的归一化图像坐标，f是摄像机的焦距。我们将角膜姿态的旋转分量初始化为单位矩阵。

Experiments

1.在图1和图8中，我们在有外部区域光和以物体为中心的场景的受控环境下运行我们的方法，以评估我们方法的最佳性能及其在真实世界结果中的泛化能力。

2.在图9中，我们展示了即使在没有受控照明的情况下，我们的方法也能工作。我们发现姿态优化是实现连贯重建的最关键组成部分。我们的发现验证了第5.1节中关于角膜姿态误差的敏感性分析。

3.在图10中，通过去除我们方法中的角膜姿态优化和纹理分解，我们展示了角膜姿态优化和纹理分解对于成功的场景重建都是必要的。由于角膜边界的模糊性使其在图像中难以精确定位，因此初始角膜姿态估计存在噪声，如图11所示。在图10中，我们展示了有和无虹膜纹理分解的情况下渲染的辐射场。当没有明确建模纹理时，我们注意到显著更多的浮动物。此外，图11展示了径向正则化通过防止视差有限的场景区域被吸收到学习的虹膜纹理中，从而改进了重建效果。

结论

本文的主要贡献如下：

1.从眼睛中恢复辐射场。我们提出了一种方法，通过结合早期基础研究和神经渲染的最新进展，从眼睛图像中重建观察者世界的辐射场。
2.角膜姿态优化与分析。我们结合角膜姿态优化，以修正初始的噪声眼睛姿态估计。使用合成数据集，我们评估了对姿态误差的敏感性以及为改进视图合成结果而进行姿态优化的必要性。
3.虹膜的径向先验。我们引入了一种用于角膜图像中虹膜纹理分解的径向先验，改善了重建辐射场的质量。

引用自文章：

Seeing the World through Your Eyes

AiFighing是全网第一且唯一分享自动驾驶实战，以代码、项目的形式讲解自动驾驶感知方向的关键技术，从算法训练到模型部署。

关注我的公众号auto_driver_ai(Ai fighting), 第一时间获取更新内容。