点击上方“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达
来源:AI缝合术
仅用于学术分享,若侵权请联系删除
一、论文信息
1
论文题目:DnLUT: Ultra-Efficient Color Image Denoising via Channel-Aware Lookup Tables中文题目:DnLUT:通过通道感知查找表实现超高效的彩色图像去噪论文链接:https://arxiv.org/pdf/2503.15931所属机构:香港大学,上海交通大学,TCL企业研究,清华大学
二、论文概要
Highlight
图1. 在色彩峰值信噪比(CPSNR)、运行时间和存储方面对模型进行比较。CPSNR和运行时间是在高斯噪声水平𝜎=25的CBSD68数据集上使用高通骁龙8 Gen2计算得出的。我们的方法在CPSNR最高、存储需求低和运行时间减少的情况下,超越了现有的基于查找表(LUT)的先进方法。此外,我们的PCM模块作为一个多功能插件模块,通过增加超过1dB的性能,增强了现有方法的表现。
图5. 在合成数据集上的定性比较。
图6. 真实世界数据集上的定性比较。
图7. 基于查找表(LUT)方法与插件PCM的可视化。
1. 研究背景:
研究问题:彩色图像在获取、存储和传输过程中比灰度图像更容易受到噪声污染,且人类对色彩失真的敏感度高于亮度变化。尽管深度神经网络(DNNs)在彩色图像去噪领域取得了显著进展,但其在边缘设备上的部署仍面临计算和内存要求高的挑战。
研究难点:边缘设备通常缺乏专门的硬件加速器,如GPU或TPU,这导致算法能力与实际部署之间存在显著差距。此外,现有的基于查找表(LUT)的方法在处理彩色图像去噪时,由于噪声通常同时影响RGB所有通道,而现有方法无法有效处理这种跨通道的噪声相关性。
文献综述:当前LUT方法主要采用2×2卷积核独立处理每个通道,适用于单通道处理,但对于彩色图像去噪效果不佳。一些方法尝试使用1×1卷积核处理RGB信息,但这些方法要么破坏噪声分布模式,要么导致存储需求过高。DnLUT提出了一种新的框架,通过两个互补组件:成对通道混合器(PCM)和创新的L型卷积设计,解决了现有LUT方法的局限性,实现了高效的彩色图像去噪。
2. 本文贡献:
Pairwise Channel Mixer (PCM):提出了一种新的PCM模块,该模块通过并行处理RGB通道的三个配对(RG、GB、BR),使用1×2卷积核深度为2的设计,有效地捕获了通道间的相关性,同时保持了存储需求的可控性。PCM模块也可以作为插件模块,增强现有LUT方法的性能,平均提升约1dB。
L型卷积核设计:开发了一种创新的L型卷积核,解决了传统基于旋转的方法的局限性。该设计在旋转过程中消除了像素重叠,使得可以转换为更高效的3D LUT,同时保持与4D LUT相同的有效感受野大小,显著减少了存储需求。
三、创新方法
1
图2. DnLUT系统架构:(a) DnNet管道集成了成对通道混合器和L形卷积,多尺度融合增强了感受野覆盖。通道维度被展平以便于L形操作的并行处理,然后展开用于PCM输入。(b) 输入像素在处理过程中经历四次旋转(0°, 90°, 180°, 270°),输出结果被平均以增强效果。(c) 训练后,所有可能的输入组合通过DnNet模块处理,输出结果被缓存在优化的3D或4D查找表中。(d) 在推理过程中,输入像素通过多个查找表高效处理,每个查找表的输出信息用于后续查找表的索引,最终得到去噪后的像素值。
主干为DnNet:输入经过PCM将RGB通道两两组合后展平,经过3个L形卷积层后融合,再经过第4个L形卷积后打开,经过PCM后展平经过第5个L形卷积得到输出。
训练:输入像素经过四次旋转,送入DnNet,集成后得到输出。
转存:训练后,所有可能的输入组合都通过 DnNet 模块进行处理,输出缓存在优化的 3D 或 4D LUT 中。
推理:输入像素通过多个LUT进行有效处理,每个LUT的输出通知后续的LUT索引,最终得到最终的去噪像素值。
PCM:首先将 RGB 通道重组为三个成对组合:RG、GB 和 BR。这些对通过并行分支处理,在初始层中使用具有 1 × 2 空间维度和深度 2 的内核,然后是级联的 1 × 1 卷积层。每个卷积操作处理四个像素值以产生一个通道输出,从而实现对训练后 4D LUT 的有效转换。
图3. 基于查找表方法的核模式分类。深色立方体表示旋转点,而中等深色区域显示一次旋转过程中涉及的像素位置。
图4. 空间内核设计的比较。左侧图案显示内核配置,而右侧表格量化输出检索期间的查找频率。
L形卷积核:在每个旋转过程中,内核处理两个额外的像素(超出中心像素),而不重叠,确保每个周围像素对输出的贡献恰好为一次。旨在解决传统旋转基方法在扩大空间感受野时引入的冗余像素使用和显著的存储开销问题。
1. 设计思想:L-shaped convolutions的设计考虑了在旋转过程中消除像素重叠,以最大化感受野内像素值的利用效率。这种设计允许将4D LUT转换为更高效的3D LUT,同时保持与4D LUT相同的有效感受野大小。
2. 实现步骤:在每个旋转过程中,L-shaped kernel处理两个额外的像素(除了中心像素),确保每个周围的像素恰好对输出贡献一次。这种设计避免了传统方法中像素的重复使用,从而减少了存储需求。
3. 效率与效果:通过L-shaped convolutions,DnLUT能够在不牺牲感受野覆盖的情况下,将存储需求减少17倍。使得DnLUT在保持高效存储的同时,能够达到与现有LUT方法相比超过1dB的去噪质量提升。
四、实验分析
1. 实验设置:使用Adam优化器、余弦退火学习率调度和均方误差(MSE)损失函数实现DnLUT。对于高斯去噪,网络训练了2×10^5次迭代,批量大小为12,对于现实世界去噪场景增加到32。使用了四个综合数据集进行训练,并在四个标准基准上进行评估。
2. 性能评估:DnLUT在LUT基础方法类别中表现出色,超过了SPF-LUT超过1dB的高斯噪声去除性能,同时仅需其17%的存储空间。在现实世界场景中,DnLUT比经典方法CBM3D和MC-WNNM高出约5dB的性能。
3. 效率评估:DnLUT在理论能耗、运行时间和存储需求方面进行了全面的效率分析。与SPF-LUT相比,DnLUT实现了70%的能耗节省,并且在运行时间上保持了快速推理能力。DnLUT的存储需求约为500KB,远低于典型的L2缓存限制。
4. PCM模块的通用性:PCM模块被设计为可以轻松集成到现有LUT基础方法中的插件模块。它赋予了模型捕获通道相关性的能力,为广泛使用的基准带来了超过1dB的性能提升。实验结果表明,PCM模块在所有基准数据集上均能显著提升性能。
五、结论
1
1. PCM模块的通用性:PCM模块被设计为可以轻松集成到现有LUT基础方法中的插件模块。它赋予了模型捕获通道相关性的能力,为广泛使用的基准带来了超过1dB的性能提升。实验结果表明,PCM模块在所有基准数据集上均能显著提升性能。
2. DnLUT的优势:DnLUT通过引入PCM和L型卷积核设计,有效地解决了现有LUT基础方法的局限性,实现了在资源受限的边缘设备上进行高效彩色图像去噪。DnLUT在去噪质量上超过了所有现有的LUT基础方法,建立了资源高效彩色图像去噪的新标准。
六、附录
1
便捷下载
https://github.com/AIFengheshu/Plug-play-modules
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~