CVPR'24 | LightDiff:低光照场景下的扩散模型,直接照亮夜晚!

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心BEV感知技术交流群

编辑 | 自动驾驶之心

原标题:Light the Night: A Multi-Condition Diffusion Framework for Unpaired Low-Light Enhancement in Autonomous Driving

论文链接:https://arxiv.org/pdf/2404.04804.pdf

作者单位:克利夫兰州立大学 德克萨斯大学奥斯汀分校 A*STAR 纽约大学 加州大学洛杉矶分校

32ba16b1969b9854a3b7edb9ef9ce8aa.png

论文思路:

自动驾驶的视觉中心感知系统由于其成本效益和可扩展性,特别是与激光雷达系统相比,最近受到了相当多的关注。然而,这些系统在低光照条件下常常会遇到困难,可能会影响其性能和安全性。为了解决这个问题,本文介绍了LightDiff ,这是一个为自动驾驶应用中提升低光照图像质量而设计的定制化框架。具体来说,本文采用了一个多条件控制的扩散模型。LightDiff 无需人工收集的成对数据,而是利用动态数据退化过程(dynamic data degradation process)。它结合了一个新颖的多条件适配器(multi-condition adapter),该适配器能够自适应地控制来自不同模态的输入权重,包括深度图、RGB图像和文本标题,以有效地照亮黑暗场景的同时保持内容的一致性。此外,为了使增强的图像与检测模型的知识相匹配,LightDiff 使用特定于感知的评分作为奖励,通过强化学习指导扩散训练过程。在 nuScenes 数据集上进行的广泛实验表明,LightDiff 能够显著提高多个最新的3D检测器在夜间条件下的性能,同时实现高视觉质量评分,凸显了其在保障自动驾驶安全方面的潜力。

主要贡献:

• 本文提出了 Lighting Diffusion (LightDiff) 模型,以增强自动驾驶中的低光照相机图像,减少了对大量夜间数据收集的需求,并保持了白天的性能。

• 本文整合了包括深度图和图像标题在内的多种输入模态,并提出了一个多条件适配器,以确保图像转换中的语义完整性,同时保持高视觉质量。本文采用了一种实用的过程,从白天数据生成昼夜图像对,以实现高效的模型训练。

• 本文为 LightDiff 提出了一种使用强化学习的微调机制,结合了为感知定制的领域知识(可信的激光雷达和统计分布的一致性),以确保扩散过程既有利于人类视觉感知,也有利于感知模型。

• 在 nuScenes 数据集上进行的广泛实验表明,LightDiff  显著提高了夜间3D车辆检测的性能,并在多个视觉指标上超越了其他生成模型。

网络设计:

9d97ac71df88d2cb49c719a1e8fb6249.png

图1。夜间驾驶场景比白天更具有致命威胁。夜间的致命率要高得多[4]。本文旨在增强夜间图像,以提高夜间驾驶的整体安全性。

如图1所示,夜间驾驶对于人类来说是具有挑战性的,对于自动驾驶汽车来说更是如此。2018年3月18日,一起灾难性的事件突显了这一挑战,当时 Uber Advanced Technologies Group 的一辆自动驾驶汽车在亚利桑那州撞击并致死了一名行人[37]。这起事件是由于车辆未能在低光照条件下准确检测到行人而引起的,它将自动驾驶汽车的安全问题推到了前沿,尤其是在这样要求苛刻的环境中。随着以视觉为中心的自动驾驶系统越来越多地依赖于相机传感器,解决低光照条件下的安全隐患已经变得越来越关键,以确保这些车辆的整体安全。

一种直观的解决方案是收集大量的夜间驾驶数据。然而,这种方法不仅劳动密集、成本高昂,而且由于夜间与白天图像分布的差异,还有可能损害白天模型的性能。为了应对这些挑战,本文提出了 Lighting Diffusion (LightDiff )模型,这是一种新颖的方法,它消除了手动数据收集的需求,并保持了白天模型的性能。

LightDiff 的目标是增强低光照相机图像,提高感知模型的性能。通过使用动态的低光照衰减过程,LightDiff 从现有的白天数据生成合成的昼夜图像对进行训练。接着,本文采用了 Stable Diffusion [44]技术,因为它能够产生高质量的视觉效果,有效地将夜间场景转换成白天的等效物。然而,在自动驾驶中保持语义一致性至关重要,这是原始 Stable Diffusion 模型面临的一个挑战。为了克服这一点,LightDiff 结合了多种输入模态,例如估计的深度图和相机图像标题,配合一个多条件适配器。这个适配器智能地确定每种输入模态的权重,确保转换图像的语义完整性,同时保持高视觉质量。为了引导扩散过程不仅朝着对人类视觉更亮的方向,而且对感知模型也是如此,本文进一步使用强化学习对本文的 LightDiff 进行微调,循环中加入了为感知量身定制的领域知识。本文在自动驾驶数据集nuScenes [7]上进行了广泛的实验,并证明了本文的 LightDiff 可以显著提高夜间3D车辆检测的平均精度(AP),分别为两个最先进模型BEVDepth [32]和BEVStereo [31]提高了4.2%和4.6%。

f268de08f869452512739cd72d20e523.png

图2. 本文的 Lighting Diffusion 模型(LightDiff )的架构。在训练阶段,一个训练数据生成流程使得无需任何人工收集的配对数据就能获取三模态数据。本文的 LightDiff 使用了一个多条件适配器来动态加权多种条件,结合激光雷达和分布奖励建模(LDRM),允许以感知为导向的控制。

dceb196bd05e0857bd6df927cac5103b.png

图3. 本文的训练数据生成流程。低光照退化转换[9]仅在训练阶段实施。训练好的深度估计网络将被冻结,用于本文 Lighting Diffusion 模型的训练和测试阶段。

25b2125b58ca82063c0cccffcb8a71c2.png

图4. 循环照明推理(Recurrent Lighting Inference)的示意图。其设计旨在提高生成文本提示和深度图的精确度,从而减轻对暗图像的不利影响。

实验结果:

6237db719b444b2223e0321fee61b3bc.png

图5. 在 nuScenes 验证集中的夜间图像示例上的视觉对比。

6f75abdba04fa7b4a30b52a45a6a7767.png

图6. 在 nuScenes 验证集中的夜间图像示例上的三维检测结果可视化。本文使用 BEVDepth [32] 作为三维检测器,并可视化相机的正视图和鸟瞰图(Bird’s-Eye-View)。

625c81dc200058c33a980c876083a38a.png

图7. 展示本文的 LightDiff  在有无多条件适配器(MultiCondition Adapter)的情况下的视觉效果。ControlNet [55]的输入保持一致,包括相同的文本提示和深度图。多条件适配器在增强过程中实现了更好的颜色对比和更丰富的细节。

c1c8b1906b120287e5a2eccc30f55ba9.png

图8. 不同模态输入的注意力图示例。

4e1d2265a02fd6529e8b3305c0fe8f1b.png

图9. 通过循环照明推理(Recurrent Lighting Inference, ReLI)增强多模态生成的示意图。通过调用一次 ReLI,提高了文本提示和深度图预测的准确性。

b8bb064b13f6f3a51705edc62f37baf9.png 3a8809bc20b731a2e5f69f1ab58f029f.png 4eb5435159b79d44e9ebd9e156621f89.png a20b728c201b9b425b9e843799f31a5f.png

总结:

本文介绍了 LightDiff ,这是一个为自动驾驶应用设计的、针对特定领域的框架,旨在提高低光照环境下图像的质量,减轻以视觉为中心的感知系统所面临的挑战。通过利用动态数据退化过程(dynamic data degradation process)、针对不同输入模态的多条件适配器,以及使用强化学习的感知特定评分引导奖励建模,LightDiff  显著提升了 nuScenes 数据集夜间的图像质量和3D车辆检测性能。这一创新不仅消除了对大量夜间数据的需求,还确保了图像转换中的语义完整性,展示了其在提高自动驾驶场景中的安全性和可靠性方面的潜力。在没有现实的成对昼夜图像的情况下,合成带有车灯的暗淡驾驶图像是相当困难的,这限制了该领域的研究。未来的研究可以集中在更好地收集或生成高质量训练数据上。

引用:

@ARTICLE{2024arXiv240404804L,
author = {{Li}, Jinlong and {Li}, Baolu and {Tu}, Zhengzhong and {Liu}, Xinyu and {Guo}, Qing and {Juefei-Xu}, Felix and {Xu}, Runsheng and {Yu}, Hongkai},
title = "{Light the Night: A Multi-Condition Diffusion Framework for Unpaired Low-Light Enhancement in Autonomous Driving}",
journal = {arXiv e-prints},
keywords = {Computer Science - Computer Vision and Pattern Recognition},
year = 2024,
month = apr,
eid = {arXiv:2404.04804},
pages = {arXiv:2404.04804},
doi = {10.48550/arXiv.2404.04804},
archivePrefix = {arXiv},
eprint = {2404.04804},
primaryClass = {cs.CV},
adsurl = {https://ui.adsabs.harvard.edu/abs/2024arXiv240404804L},
adsnote = {Provided by the SAO/NASA Astrophysics Data System}
}

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

4c5731ea4ab39e4ecb7ea8907e52a695.png 网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

aa1964cabe0c0b4fb6eb13fb699ce03c.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!

自动驾驶感知:目标检测、语义分割、BEV感知、毫米波雷达视觉融合、激光视觉融合、车道线检测、目标跟踪、Occupancy、深度估计、transformer、大模型、在线地图、点云处理、模型部署、CUDA加速等技术交流群;

多传感器标定:相机在线/离线标定、Lidar-Camera标定、Camera-Radar标定、Camera-IMU标定、多传感器时空同步等技术交流群;

多传感器融合:多传感器后融合技术交流群;

规划控制与预测:规划控制、轨迹预测、避障等技术交流群;

定位建图:视觉SLAM、激光SLAM、多传感器融合SLAM等技术交流群;

三维视觉:三维重建、NeRF、3D Gaussian Splatting技术交流群;

自动驾驶仿真:Carla仿真、Autoware仿真等技术交流群;

自动驾驶开发:自动驾驶开发、ROS等技术交流群;

其它方向:自动标注与数据闭环、产品经理、硬件选型、求职面试、自动驾驶测试等技术交流群;

扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

fcac643da675baf3ecfa7c48a8d51d45.jpeg

④【自动驾驶之心】平台矩阵,欢迎联系我们!

249b124daec6d03a5fc1e6e386daf4ca.jpeg

1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值