ICCV 2023 Nerf相关文章汇总

作者 | LearningMan  编辑 | 自动驾驶与AI

原文链接:https://zhuanlan.zhihu.com/p/651662074

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

本文只做学术分享,如有侵权,联系删文

点击进入→自动驾驶之心【NeRF】技术交流群

最近ICCV2023也放榜了,目前对看到的NERF相关的文章做一个初步的整理,有价值的工作会再做笔记。

后续若还发现更多相关的文章,也会做持续的列表更新。

近期的NERF相关文章感觉质量还是很高的,有好些关于fundamental representation优化的工作,特别是anti aliasing相关的NERF,即Mip-NERF的系列。

Mip-NERF的工作个人感觉还是很solid的,cone tracing加IPE的改动,从方法的原理来看就是work的,但速度确实很慢,训练一次要好几天,在沉寂相当一段长时间后,终于有若干的新工作focus在这个点上(Zip-nerf & Tri-MipRF)。

I. Zip-NeRF: Anti-Aliased Grid-Based Neural Radiance Fields

project page: https://jonbarron.info/zipnerf/

paper Info: https://arxiv.org/abs/2304.06706

code: (Unofficial) https://github.com/SuLvXiangXin/zipnerf-pytorch

61169e51754c935903b38291b14109a8.png

Summary

Jon.Barron的最新工作,其实也放出来好几个月了,效果还是很惊艳的,demo视频里的室内室外场景的清晰度看上去都很不错。

这篇工作的目标是把Instant-NGP与mip nerf 360结合起来,准确地说,是把grid-based model与mip nerf 360的方法结合起来,在INGP的基础上把anti-aliasing的特性融合进去,提升渲染效果。

这篇文章连framework的图都没有,看起来更偏向于工程方面的改进。

作者主要提出了两个contribution,分别是Spatial Anti-aliasing以及Z-aliasing & Proposal Supervision。前者是让INGP的feature具备prefilter的特性,后者则是解决proposal sampler中的online distilation的问题。

8e454e68ad83d8da1b776f964b6e8726.png

上图是INGP的feature特性示意图,不同的颜色段代表不同的scale,线段波动越大(图(a)),对应着iNGP中的失真现象,即高频细节丢失。图(b)则是gt的feature示意图,在每个scale应该是尽可能平滑且有波动,图(c)则是用的downweighting方法压制频率的波动,图(d)对应的是supersampling(multisampling)方法,在高频的scale同样会有不少的抖动,图(e)则是提出的采样方法,结合了downweighting以及supersampling,达到在每个scale上尽可能平滑的目的。

具体的采样方法是在截断的视锥表面进行采样(如下图所示),为什么是这样的采样方法以及如何计算后续的PE就要看论文细节才能进一步了解了。

a7faa30de8caa79c33c1dfadc48ff776.png

此外,第二个contribution,Z-aliasing & Proposal Supervision则是为了解决Mip-nerf 360中提出的Proposal MLP中的深度不连续问题。具体细节待进一步了解论文。

32a2645d8aabb861843faf4e794a71b8.png

Anti aliasing NERF这个系列感觉还是挺solid的,后面再精读一番,尝试做一个系列总结。

II. Tri-MipRF: Tri-Mip Representation for Efficient Anti-Aliasing Neural Radiance Fields

project page: https://wbhu.github.io/projects/Tri-MipRF/

paper Info: https://arxiv.org/abs/2307.11335

code: https://github.com/wbhu/Tri-MipRF

Summary

Tri-MipRF是另一篇改进fundamental representation的工作,它把mip-nerf跟tri-plane结合起来,这个工作的训练速度很快,且渲染效果也很不错,甚至在RTX 3090上可以达到实时渲染的程度。

918e9b23b2a68298f5ffd79b62b09069.png

这个工作的representation方式是把mip-nerf中的cone casting与tri-plane结合起来,它不像mip-nerf的方式用多元高斯来近似圆锥,而是取若干个sample点,构造其与圆锥的内切球,把内切球向三个平面(XY plane, XZ plane, YZ plane)分别作正交投影,得到三个平面的圆形投影,然后基于Tri-Mip Encoding构造特征向量,拼接后送到tiny MLP中得到对应的color和density。

Tri-Mip Encoding粗略地看了下,是找到邻近的两个level的mipmap feature map,然后根据所在位置进行插值所得,且mipmap feature map是可学习的参数。具体细节待进一步了解。

基于这个representation,近视角的模糊以及远视角的锯齿现象都能够得到优化,且训练跟渲染的速度都挺快的。它基于渲染加速,还做了两个优化工作,分别是empty space skipping以及hybrid volume-surface rendering,这两个措施其实属于常规操作,其中volume-surface rendering在 Neural 3D Reconstruction in the Wild 这篇工作中看到类似的,可以理解为先求光线与物体相交的位置(hit point),再基于hit point向光线方向进行采样,这样可以避免在empty space的采样。

f29dd4de3f4cd62a617db14a2bd547ca.png

从上图来看,这篇文章出来的proxy mesh效果很好,在lego数据集上细节比NeuS都要好,而且这个方法没有专门优化Mesh,但是出来的Mesh效果却很不错。

文中也并没有做进一步的探索研究,只是作为一个光线求交的组件使用。而且mip-nerf出来的mesh也不错,好奇到底是哪个部分起到了mesh优化的作用。

III. SparseNeRF: Distilling Depth Ranking for Few-shot Novel View Synthesis

project page: https://sparsenerf.github.io/

paper Info: https://arxiv.org/abs/2303.16196

code: https://github.com/Wanggcong/SparseNeRF

Summary

这是一篇few-shot NERF方向的论文,同样是用到了深度图。但相比基于Depth-Supervised NERF的方法,这篇方法放宽了对depth map准确程度的要求,允许coarse depth map不那么准确,这里提到的coarse depth map来自于depth predict model或者是深度相机的输出。这个方法的目的是让NERF学习到的depth map与coarse depth map在local patch上具备一致性,并且加上了约束,从而保证空间上的连续性。

这个idea很棒,简洁明了。depth map肯定是不准的,无论是用depth predicted model还是用depth sensor,与其把目标寄托在提升depth的精度上,不如就用depth map中区域之间的相对关系来去指导学习过程。

038149e925ad963ede25c53285e78983.png

这篇文章还是plugin style的方法,framework氛围四个组件,分别是NERF,color reconstruction module, depth ranking distillation module以及spatial continuity distillation module。这篇文章提出的depth ranking distillation module 和 spatial continuity distillation module可以方便地用到其他的NERF方法上。

作者的code Readme里面写到,在不久之后会给出tutorial来参考。

具体的做法是让NERF学到的深度在一个patch范围内跟depth model (DPT)预测出来的远近关系相一致,作者观察到的现象对于depth model预测出来的depth map图,它不能保证隔得很远的pixel的深度远近关系,但是可以保证邻近的pixel的深度远近关系。

0023ca3dc162465fafa9fc5332785e21.png

此外的continuity distillation module跟depth ranking distillation module也是类似的,在depth map上连续的pixel,用一个正则约束预测出来的pixel depth也是空间上连续的,而深度变化明显的边界则不囊括在这个正则约束的过程当中。

这篇文章的idea还是挺浅显易懂的,不再要求精确的depth,而是仅利用depth map中的远近关系,效果达到了few-shot NERF的SOTA,还提出了一个NVS-RGBD的数据集,应该会有更多的工作在这个数据集上进行测试以及对比。

IV. Delicate Textured Mesh Recovery from NeRF via Adaptive Surface Refinement

project page: https://me.kiui.moe/nerf2mesh/

paper Info: https://arxiv.org/abs/2303.02091

code: https://github.com/ashawkey/nerf2mesh

23069b556fa048d1b2446b9a184aa973.png

Summary

NeRF2Mesh这篇文章的目标是从NERF的场景模型中恢复出精细的Mesh模型,并且保持高质量的渲染效果。个人感觉这篇文章的Introduction介绍的背景相关还是挺全面的,基于SDF生成的mesh虽然表面准确,但大概率会over-smoothed,且不保证渲染质量,NERF虽然能够渲染出高质量的新视角图像,但其基于marching cube生成的mesh质量偏低,还提到了MobileNERF以及nvdiffrec对于mesh的处理,有兴趣的读者可以去看一下。

这篇文章中,作者主要分为两个stage进行处理,stage1训练一个NERF,stage 2通过marching cube的做法从NERF中恢复一个coarse mesh,基于Iterated Mesh Refining对mesh的vertex positions以及face density进行调整,达到一个质量更好的 fine mesh。

这个思路感觉是marching cube的升级版,因为他不像SDF的工作,对object surface进行优化,而是基于marching cube做iterated refinement,refine method是这篇文章的另一个contribution。同时为了保持高质量的渲染效果,它在stage 1跟stage 2中都加入了appearance相关的模块,恢复出Diffuse以及Specular的Texture,从而渲染出view-dependent的高光效果。但它又跟常规的恢复material不一样,相当于是把高光的细节bake到了specular texture里面。

笔者觉得这个方向挺有价值的,且更贴合工业方向。但目前的做法还不具备通用性,NERF training的过程中还是要加入appearance module。如果是适用于任何一个已经trained好的NERF模型,能把mesh恢复出来并保证渲染质量,那就更酷了。

V. Urban Radiance Field Representation with Deformable Neural Mesh Primitives

project page: https://dnmp.github.io/

paper Info: https://arxiv.org/abs/2307.10776

code: https://github.com/DNMP/DNMP

Summary

这篇文章是处理urban-level场景的NERF的新工作,用到了截然不同的新方法。它用Deformable Neural Mesh Primitives(DNMP) 作为新的载体。

270f191ad1804b80a46077c84cb5e030.png

从下图的framework来看,首先是从点云进行DNMP的生成,再通过rasterization(光栅化)的操作,求得光线与DNMP的交点,并通过插值得到其feature,再结合view-dependent embedding求得radiance value以及opacity(看起来就是color和density)。

引入DNMP作为representation的载体可以仅针对local area进行shape optimization以及radiance field的构造,同时可以结合Hierarchy的DNMP进行高质量的渲染。当有了DNMP作为导向,渲染出来的新视角基本没有floaters,因为光线会直接与场景中的物体相交。

eeba8819e5b1843aea2173f405e6d09c.png

这篇文章的内容还是比较多的,上面也只是泛读的总结,有兴趣的读者可以进一步了解一下

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码学习)

77e1d18ca8f28ac4f1cf5021615c4ac8.png 视频官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

近2000人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

d5faee3e86de12dcc734a9255ff7e5c3.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

fec71daf4199fc469118042e073ea906.jpeg

④【自动驾驶之心】平台矩阵,欢迎联系我们!

8f9c20dbe5f59b500248d5702e9cba25.jpeg

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
ICCV (International Conference on Computer Vision) 是计算机视觉领域的重要国际会议,每年都会汇聚最新的研究成果。ICCV 2023 版本中,医学图像分割作为其中一个热门研究方向,关注的是如何使用计算机视觉技术来自动分析和分割医学影像中的结构或病变,这对于疾病诊断、手术规划和治疗效果评估具有重要意义。 在ICCV 2023上,可能会探讨以下几个方面: 1. **深度学习方法**:深度学习特别是卷积神经网络(CNN)和递归神经网络(RNN)在医学图像分割中的应用会持续发展,比如U-Net、SegNet、Unet++等模型的改进和集成。 2. **弱监督和半监督学习**:减少标注数据的需求,通过利用大量未标注或部分标注的图像来提升分割性能。 3. **注意力机制**:自注意力机制可能会被用于更精准地聚焦于图像中的关键区域,提高分割的精度。 4. **医学图像的多模态融合**:结合不同类型的医学图像,如CT、MRI、PET等,以获得更全面的特征信息。 5. **迁移学习与预训练模型**:利用预训练在大规模数据集(如ImageNet)上的模型,然后在医疗领域的特定任务上微调。 6. **算法评估与挑战**:如何设计有效的评价指标和基准,以及组织针对特定医学图像分割任务的比赛。 相关问题--: 1. ICCV 2023中有哪些新型的医学图像分割算法被提出? 2. 在医学图像分割中,如何处理数据不平衡的问题? 3. 有没有在ICCV 2023上展示的成功案例,证明了医学图像分割技术的实际临床价值?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值