都在谈端到端的输出,怎么提高端到端输入的质量?

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心分享一篇理想汽车最新智能ISP系统相关工作:RMFA-Net,助力提升端到端输入质量。如果您有相关工作需要分享,请在文末联系我们!

也欢迎添加小助理微信AIDriver004,加入我们的技术交流群

>>点击进入→自动驾驶之心端到端自动驾驶技术交流群

编辑 | 自动驾驶之心

文章:RMFA-Net: A Neural ISP for Real RAW to RGB Image Reconstruction
链接:https://arxiv.org/abs/2406.11469

f452ae3d8579a4fa74cd48c6a48bdbed.png

问题引出

图像信号处理器(ISP)是一种专门设计的系统,用于从CMOS传感器捕获的原始数据重建RGB图像。现有ISP系统是基于传统算法的,依赖于对传感器的深入理解和复杂的调试,这限制了它们在自动驾驶和机器人等领域的适用性。虽然在基于人眼视觉的标准下,传统算法取得了较好的效果,但在视觉感知系统中无法很好适配。基于深度学习的ISP算法作为一种具有显著潜力和多功能性的方法出现。近年来,越来越多的人对开发基于学习的算法以设计高效且高性能的ISP算法产生了兴趣,这些算法可以针对特定领域的需求量身定制。

54161014efcd88118986103b40777c2a.jpeg

然而,现有算法并未充分考虑raw数据的特定特性,如黑电平和CFA,这可能会在处理不当时对纹理和颜色产生负面影响。此外,raw数据中的不均匀曝光也未被仔细考虑,导致对比度和亮度信息无法准确恢复。现有算法在数据处理的时候,破坏了原始数据中的高频信息,导致高频细节难以回复,同时会带来模糊等问题。本文介绍了RMFA-Net以解决这些问题。我们进行显示黑电平校正以减轻暗场景中的颜色偏移。为了保留高频信息并防止错位,我们提出了一种新的三通道分离模式。为了解决不均匀曝光的问题,我们个基于Retinex理论的设计了色调映射模块,从而最终获得更好的图像效果。

框架介绍

c94fa29d6364ec3c8f732ebb38358769.png
Figure 1 RMFA-Net网络结构

图1(a)提供了本文所提出的深度学习架构的示意图。该网络分为三个主要部分:输入模块,RMFA模块栈,以及输出模块。输入模块接受大小为256 × 256 × 3的图像作为输入,并将深度从3扩展到统一的宽度。在这一部分中,使用了两个卷积层,卷积核大小为3 × 3。需要注意的是,tanh函数被用来将结果映射到区间(−1, 1) 。第二部分由多个RMFA模块组成。第三部分是输出模块,其中使用一个卷积层,紧接着是sigmoid激活函数来生成输出。

关键组件介绍

RMFA模块

RMFA模块是我们模型的基本构建块,如图1(b)所示。其包含几个子模块:

  1. 高频信息提取分支:这个子分支专注于从输入数据中提取高频信息。它利用大小为1 × 1的卷积核来捕捉图像中的细节。通过使用较小的卷积核,网络能够有效地捕捉高频纹理并保留重建图像中的复杂细节。

  2. 低频分支:这个子分支负责捕获输入数据中的低频信息。它利用大小为3×3的较大卷积核来捕捉更广泛的特征并平滑图像。较大的卷积核允许网络捕获低频纹理,例如整体色彩和色调变化,并确保重建的图像保持视觉上的美观

  3. 色调映射模块:模块纹理模块和色调映射模块的输出首先被连接在一起。随后,使用一个卷积层将特征图的数量映射到原始深度宽度。

  4. 注意力模块。RMFA模块的最后添加了channel attention和spatial attention模块。同时添加了skip connection连接。

作为一个多功能的构建块,RMFA模块可以无缝地集成到各种架构中,增强我们模型的灵活性和适应性

3通道模式

a81f4182552585f328028de5b997bf36.png
Figure 2:3通道模式

如图2所示,在之前的工作中,通常的做法是将4通道模式,在这种模式下,绿色通道进一步分为Gr和Gb通道。这种额外的分离相当于对绿色通道进行下采样,这会破坏raw数据中的高频信息。

此外,4通道模式会引起像素错位。如图2(a)中的黑框所示,四个通道中相同位置的像素实际上对应于原始raw数据中的2×2邻域。这种错位可能导致模糊,影响图像质量

本文设计了一种新方法,如图2(c)所示。我们将Bayer raw数据分为三个通道(R、G、B),每个通道保留raw数据的大小。对于未采样的像素,我们用1填充。因此,G通道的采样率保持不变,尽可能保留高频纹理信息。我们相信这种方法将更有助于网络准确地重建高频信息。

量化指标

我们在公开数据集上测试我们的效果,PSNR和SSIM两个指标都超越了sota结果+1db。同时我们网络参数也控制在较小的范围内。如表1所示

da7a38dbde43059a7f0a371f745caf7b.png
Table 1:结果对比

总结

在本文中,我们提出了名为RMFA-Net的Neural ISP网络,这是一种用于RAW到RGB图像重建的新型深度学习模型。我们在公开数据集上证明了我们算法的有效性。其在PSNR和SSIM等图像指标超过了sota结果1个Db。RMFA-Net在重建亮度、颜色、纹理和整体图像细节方面有着更为出色的表现。

此外,我们还提供了一些额外的细节和结果,包括数据处理细节、网络结构细节、各处理模块作用对比分析等。这些额外信息进一步证明了我们方法的有效性和实用性。我们希望我们的工作能够启发未来关于Neural ISP系统的研究

引用

【1】Ignatov, A., Van Gool, L., Timofte, R.: Replacing mobile camera isp with a single deep learning model. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. pp. 536–537 (2020)

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

004325431f4d7ca83c1c6c36c90b3111.png 网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

f34db9ab7c132cad38e754cf194a90da.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

fbfd3808e3c4ac1c40f1334ee3714e16.jpeg

④【自动驾驶之心】全平台矩阵

01ca81e9d46f637d15c5af10c041fce5.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值