【CMU博士论文】稀疏视角三维重建

6b422aee48bb4a468b4c0d672b8d7a17.png

来源:专知
本文为论文介绍,建议阅读5分钟这篇论文提出了稀疏视角三维重建技术,自动估计相机姿态并从少于10张图像中重建野外三维物体。

9220adb3f1aa1a269367263282df3047.png

从图像中重建三维场景和物体一直是计算机视觉的长期目标。近年来,我们在这方面取得了巨大进展,能够从任何视点生成近乎逼真的渲染。然而,现有方法通常依赖大量输入图像(通常为50-100张)来计算相机姿态并确保视图一致性。这一限制减少了这些方法的适用性,因为获取100张高质量且无运动模糊的图像对于终端用户来说可能是个负担。为了在非受限场景中实现三维重建,这篇论文提出了稀疏视角三维重建技术,自动估计相机姿态并从少于10张图像中重建野外三维物体。

我们首先探讨了如何利用隐式表面来正则化从稀疏视角学习到的三维表示。我们证明了我们的表示方法可以将视角依赖的镜面效应与视角无关的漫反射外观分离开,从而能够从4-8张伴随噪声相机姿态的图像中稳健地重建三维。然而,首先获得这种相机姿态初始化是具有挑战性的。为了解决这个问题,我们提出了一个基于能量的框架,用于预测相对相机旋转的概率分布。然后将这些分布组合成稀疏图像集中的一致相机旋转集合。接着,我们展示了如何利用基于transformer的架构来扩展我们的基于能量的表示,从而有效利用更多的图像。我们发现,额外的图像上下文使我们的方法能够解决仅使用两张图像时产生的歧义问题。虽然自上而下的基于能量的姿态估计能够有效处理姿态歧义,但它在采样姿态时可能较慢,并且没有利用可能提供有用线索的级别特征来进行对应匹配和几何一致性。为了解决这些问题,我们提出将相机表示为从相机中心到每个图像补丁中心的一束射线。然后我们训练了一个基于扩散的去噪网络来预测这种表示。我们发现,这种通用的相机表示显著提高了姿态准确性。

595b2db5cc0d3e5a37c60f9d946cd49a.png

c8bfe6a135cbff80ff37550ba0e46af9.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值