L0-Sampler,点云变形重建,3DFusion,MonoDiffusion等

  🚀 提升你的编程、科研学习体验! 🚀

大家好,我是小P学长

🌟 如何获取学习资料?

  1. 支持我的博客icon-default.png?t=N7T8https://studentp.cloud/p/search.html?text=,输入关键词查找项目(比如“注意力机制”、“cifar”等)。
  2. 获取宝藏内容。

🎉 感谢你的支持! 🎉


L0-Sampler: An L0 Model Guided Volume Sampling for NeRF

https://arxiv.org/abs/2311.07044

Liangchen Li, Juyong Zhang

中国科技大学

自提出以来,神经辐射场(NeRF)在相关任务中取得了巨大成功,主要采用分层体采样(HVS)策略进行体绘制。然而,NeRF 的 HVS 使用分段常数函数来近似分布,这提供了相对粗略的估计。基于观察到训练有素的权重函数 w(t) 与点与表面之间的 L0 距离具有非常高的相似性,我们提出了 L0-Sampler,将 L0 模型合并到 w(t) 中来指导采样过程。具体来说,我们建议使用分段指数函数而不是分段常数函数进行插值,这不仅可以很好地逼近沿射线的准L0权重分布,而且可以用几行代码轻松实现,而无需额外的计算负担。通过将 L0-Sampler 应用于 NeRF 及其相关任务(如 3D 重建),可以实现稳定的性能改进。

图片

图片

Registered and Segmented Deformable Object Reconstruction from a Single View Point Cloud

https://arxiv.org/abs/2311.07357

Pit Henrich, Balázs Gyenes, Paul Maria Scheikl, Gerhard Neumann, Franziska Mathis-Ullrich

FAU Erlangen-Nurnberg、Karlsruhe Institute of Technology

在可变形对象操作中,我们通常希望与仅在对象的非变形模型中定义的对象的特定部分进行交互。因此,我们需要一个能够在变形的现实世界物体的传感器数据中识别和定位这些片段的系统。这通常是使用可变形对象注册来完成的,这是特定于问题的并且调整起来很复杂。最近的方法利用神经占用函数通过配准到对象重建来改进可变形对象配准。更进一步,我们提出了一种系统,除了重建之外,还学习重建对象的分割。由于结果输出已经包含有关段的信息,因此我们可以跳过注册过程。在模拟和现实世界中对各种可变形物体进行测试,我们证明我们的方法能够稳健地找到这些片段。我们还引入了一种简单的采样算法来为占用学习生成更好的训练数据。

图片

图片

3DFusion, A real-time 3D object reconstruction pipeline based on streamed instance segmented data

https://arxiv.org/abs/2311.06659

Xi Sun, Derek Jacoby, Yvonne Coady

University of Victoria

本文提出了一种实时分割和重建系统,该系统利用 RGB-D 图像来生成捕获场景内对象的准确且详细的单独 3D 模型。 该系统利用最先进的实例分割技术,对 RGB-D 数据执行像素级分割,有效地将前景对象与背景分离。 然后,分割的对象在高性能计算平台中重建为不同的 3D 模型。 实时 3D 建模可应用于各个领域,包括增强/虚拟现实、室内设计、城市规划、道路援助、安全系统等。 为了实现实时性能,论文提出了一种对连续帧进行有效采样的方法,以减少网络负载,同时保证重建质量。 此外,采用多进程SLAM管道进行并行3D重建,能够有效地将聚类对象切割成个体。 该系统采用业界领先的框架YOLO进行实例分割。 为了提高 YOLO 的性能和准确性,进行了修改以解决相似对象的重复或错误检测问题,确保重建的模型与目标保持一致。 总的来说,这项工作建立了一个强大的实时系统,显着增强了室内环境中的对象分割和重建。 它有可能扩展到户外场景,为现实世界的应用提供大量机会。

图片

图片

图片

深度估计

MonoDiffusion: Self-Supervised Monocular Depth Estimation Using Diffusion Model

https://arxiv.org/abs/2311.07198

Shuwei Shao, Zhongcai Pei, Weihai Chen, Dingchi Sun, Peter C.Y.Chen, Zhengguo Li

北航、新加坡国立大学、Institute for Infocomm Research

在过去的几年里,在训练阶段不依赖于真实情况的自监督单目深度估计受到了广泛的关注。大多数工作集中在设计不同类型的网络架构和损失函数或处理边缘情况,例如遮挡和动态对象。在这项工作中,我们通过将其表述为迭代去噪过程,引入了一种新颖的自监督深度估计框架,称为 MonoDiffusion。由于深度真实值在训练阶段不可用,因此我们开发了伪真实值扩散过程来辅助 MonoDiffusion 中的扩散。伪地面实况扩散逐渐向预先训练的教师模型生成的深度图添加噪声。此外,教师模型允许应用蒸馏损失来指导去噪深度。此外,我们开发了一种屏蔽视觉条件机制来增强模型的去噪能力。在 KITTI 和 Make3D 数据集上进行了大量实验,所提出的 MonoDiffusion 优于之前最先进的竞争对手。源代码将在此 https URL 中提供。

图片

图片

图片

NDDepth: Normal-Distance Assisted Monocular Depth Estimation and Completion

https://arxiv.org/abs/2311.07166

Shuwei Shao, Zhongcai Pei, Weihai Chen, Peter C. Y. Chen, Zhengguo Li

北航、新加坡国立大学、Institute for Infocomm Research

在过去的几年里,单目深度估计和补全因其广泛的应用而受到计算机视觉界越来越多的关注。在本文中,我们假设 3D 场景由分段平面构成,为这两个任务引入了新颖的物理(几何)驱动的深度学习框架。我们建议估计表面法线和平面到原点距离图或完成稀疏表面法线和距离图作为中间输出,而不是直接估计深度图或完成稀疏深度图。为此,我们开发了一个法线距离头,可以输出像素级表面法线和距离。同时,表面法线和距离图通过开发的平面感知一致性约束进行正则化,然后转换为深度图。此外,我们集成了一个额外的深度头来增强所提出框架的稳健性。在 NYU-Depth-v2、KITTI 和 SUN RGB-D 数据集上进行的大量实验表明,我们的方法在性能上超越了之前最先进的单目深度估计和完成竞争对手。 

图片

图片

图片

综述

Explainability of Vision Transformers: A Comprehensive Review and New Perspectives

https://arxiv.org/abs/2311.06786

Rojina Kashefi, Leili Barekatain, Mohammad Sabokrou, Fatemeh Aghaeipoor

Institute for Research in Fundamental Sciences、Okinawa Institute of Science and Technology

Transformer 对自然语言处理产生了重大影响,并且最近展示了它们在计算机视觉方面的潜力。他们在基本计算机视觉任务中表现出了优于卷积神经网络的有希望的结果。然而,科学界尚未完全掌握视觉变换器的内部工作原理,也没有完全掌握其决策的基础,这凸显了可解释性方法的重要性。了解这些模型如何做出决策不仅可以提高其性能,还可以建立对人工智能系统的信任。本研究探索了为视觉变换器提出的不同可解释性方法,并提出了根据其动机、结构和应用场景来组织它们的分类法。此外,它还提供了可用于比较解释结果的评估标准的全面审查,以及可解释性工具和框架。最后,本文强调了可以增强视觉变换器可解释性的重要但尚未探索的方面,并为未来的投资提出了有前景的研究方向。

图片

图片

  • 19
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小P学长

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值