都在谈端到端的输出，怎么提高端到端输入的质量？

自动驾驶之心

于 2024-06-27 07:30:52 发布

阅读量54

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247614814&idx=3&sn=5aca1018b600204dd61a14309c24212b&chksm=cfa414f838b03f4c71aefcb4295ec9be89a3b3e0512d72143ec8e5f5350e5e58b1089b0e97df&scene=126&sessionid=0

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心分享一篇理想汽车最新智能ISP系统相关工作：RMFA-Net，助力提升端到端输入质量。如果您有相关工作需要分享，请在文末联系我们！

也欢迎添加小助理微信AIDriver004，加入我们的技术交流群

>>点击进入→自动驾驶之心『端到端自动驾驶』技术交流群

编辑 | 自动驾驶之心

文章：RMFA-Net: A Neural ISP for Real RAW to RGB Image Reconstruction
链接：https://arxiv.org/abs/2406.11469

问题引出

图像信号处理器（ISP）是一种专门设计的系统，用于从CMOS传感器捕获的原始数据重建RGB图像。现有ISP系统是基于传统算法的，依赖于对传感器的深入理解和复杂的调试，这限制了它们在自动驾驶和机器人等领域的适用性。虽然在基于人眼视觉的标准下，传统算法取得了较好的效果，但在视觉感知系统中无法很好适配。基于深度学习的ISP算法作为一种具有显著潜力和多功能性的方法出现。近年来，越来越多的人对开发基于学习的算法以设计高效且高性能的ISP算法产生了兴趣，这些算法可以针对特定领域的需求量身定制。

然而，现有算法并未充分考虑raw数据的特定特性，如黑电平和CFA，这可能会在处理不当时对纹理和颜色产生负面影响。此外，raw数据中的不均匀曝光也未被仔细考虑，导致对比度和亮度信息无法准确恢复。现有算法在数据处理的时候，破坏了原始数据中的高频信息，导致高频细节难以回复，同时会带来模糊等问题。本文介绍了RMFA-Net以解决这些问题。我们进行显示黑电平校正以减轻暗场景中的颜色偏移。为了保留高频信息并防止错位，我们提出了一种新的三通道分离模式。为了解决不均匀曝光的问题，我们个基于Retinex理论的设计了色调映射模块，从而最终获得更好的图像效果。

框架介绍

Figure 1 RMFA-Net网络结构

图1（a）提供了本文所提出的深度学习架构的示意图。该网络分为三个主要部分：输入模块，RMFA模块栈，以及输出模块。输入模块接受大小为256 × 256 × 3的图像作为输入，并将深度从3扩展到统一的宽度。在这一部分中，使用了两个卷积层，卷积核大小为3 × 3。需要注意的是，tanh函数被用来将结果映射到区间(−1, 1) 。第二部分由多个RMFA模块组成。第三部分是输出模块，其中使用一个卷积层，紧接着是sigmoid激活函数来生成输出。

关键组件介绍

RMFA模块

RMFA模块是我们模型的基本构建块，如图1(b)所示。其包含几个子模块：

高频信息提取分支：这个子分支专注于从输入数据中提取高频信息。它利用大小为1 × 1的卷积核来捕捉图像中的细节。通过使用较小的卷积核，网络能够有效地捕捉高频纹理并保留重建图像中的复杂细节。
低频分支：这个子分支负责捕获输入数据中的低频信息。它利用大小为3×3的较大卷积核来捕捉更广泛的特征并平滑图像。较大的卷积核允许网络捕获低频纹理，例如整体色彩和色调变化，并确保重建的图像保持视觉上的美观
色调映射模块：模块纹理模块和色调映射模块的输出首先被连接在一起。随后，使用一个卷积层将特征图的数量映射到原始深度宽度。
注意力模块。RMFA模块的最后添加了channel attention和spatial attention模块。同时添加了skip connection连接。

作为一个多功能的构建块，RMFA模块可以无缝地集成到各种架构中，增强我们模型的灵活性和适应性

3通道模式

Figure 2：3通道模式

如图2所示，在之前的工作中，通常的做法是将4通道模式，在这种模式下，绿色通道进一步分为Gr和Gb通道。这种额外的分离相当于对绿色通道进行下采样，这会破坏raw数据中的高频信息。

此外，4通道模式会引起像素错位。如图2(a)中的黑框所示，四个通道中相同位置的像素实际上对应于原始raw数据中的2×2邻域。这种错位可能导致模糊，影响图像质量

本文设计了一种新方法，如图2(c)所示。我们将Bayer raw数据分为三个通道（R、G、B），每个通道保留raw数据的大小。对于未采样的像素，我们用1填充。因此，G通道的采样率保持不变，尽可能保留高频纹理信息。我们相信这种方法将更有助于网络准确地重建高频信息。

量化指标

我们在公开数据集上测试我们的效果，PSNR和SSIM两个指标都超越了sota结果+1db。同时我们网络参数也控制在较小的范围内。如表1所示

Table 1：结果对比

总结

在本文中，我们提出了名为RMFA-Net的Neural ISP网络，这是一种用于RAW到RGB图像重建的新型深度学习模型。我们在公开数据集上证明了我们算法的有效性。其在PSNR和SSIM等图像指标超过了sota结果1个Db。RMFA-Net在重建亮度、颜色、纹理和整体图像细节方面有着更为出色的表现。

此外，我们还提供了一些额外的细节和结果，包括数据处理细节、网络结构细节、各处理模块作用对比分析等。这些额外信息进一步证明了我们方法的有效性和实用性。我们希望我们的工作能够启发未来关于Neural ISP系统的研究

引用

【1】Ignatov, A., Van Gool, L., Timofte, R.: Replacing mobile camera isp with a single deep learning model. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. pp. 536–537 (2020)

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向，目前近60+技术交流群，欢迎加入！扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

④【自动驾驶之心】全平台矩阵

自动驾驶之心

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
都在谈端到端的输出，怎么提高端到端输入的质量？

点击下方卡片，关注“自动驾驶之心”公众号戳我->领取自动驾驶近15个方向学习路线今天自动驾驶之心分享一篇理想汽车最新智能ISP系统相关工作：RMFA-Net，助力提升端到端输入质量。如果您有相关工作需要分享，请在文末联系我们！也欢迎添加小助理微信AIDriver004，加入我们的技术交流群>>点击进入→自动驾驶之心『端到端自动驾驶』技术交流群编辑 | 自动驾驶之心文章：RMFA...
复制链接

扫一扫