喜报 | 小米多媒体团队在CVPR 2024斩获三冠两亚！

最新推荐文章于 2025-04-09 14:55:37 发布

小米技术

最新推荐文章于 2025-04-09 14:55:37 发布

阅读量282

点赞数 1

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxMDQxMDMyNg==&mid=2247514842&idx=1&sn=2874b944ecbb9be5f63eda27bafc9f56&chksm=f8974aa38deb061ee2e628ba8f1ca234db61fc7d3bdb00f7cefa88c6fe6d8c2457296f13616a&scene=126&sessionid=0

版权

近日，小米影像团队在计算机视觉领域的最具影响力的顶级学术会议CVPR 2024的NTIRE和AIS赛事中，取得了令人瞩目的成绩。在多项挑战赛中击败国内外强劲对手，一举夺得3项冠军、2项亚军，并中稿1篇高效超分辨率方向的论文，充分展现了小米在移动影像领域的硬核实力。

CVPR 全称是计算机视觉与模式识别大会 (Conference on Computer Vision and Pattern Recognition)，由 IEEE 计算机学会主办，每年一次，汇集了全球顶尖的学者、工程师和企业家，共同探讨计算机视觉与模式识别领域的前沿问题。

本次参加CVPR 2024 NTIRE和AIS比赛的小米团队来自小米影像团队，团队主要负责手机拍照相关技术的研发工作，涉及高层的AI语义感知类技术和底层的AI画质增强类技术，宗旨是为用户带来智能、极致的摄影体验。

01 NTIRE：“影像算法奥林匹克”

NTIRE（New Trends in Image Restoration and Enhancement）是由CVPR 组委会承办的关于计算机视觉和模式识别领域的研讨会，旨在提供图像恢复和增强领域的新趋势和进展的概述，并为学术和工业参与者提供互动和探索合作的机会。

作为全世界规模最大、水平最高的图像恢复与增强的研讨会，NTIRE素有“影像算法奥林匹克”之称，今年已是第九届。小米影像团队参与了四倍超分辨率，高效超分辨率和RAW图超分辨等多个赛道，并包揽其中3项冠军。

02 NTIRE2024：Image Super Resolution (x4) Challenge

图像超分辨率（Super-Resolution, SR）是计算机视觉领域的一个重要研究方向，其目标是通过算法将低分辨率（Low Resolution, LR）图像提升至高分辨率（High Resolution, HR），以改善图像质量和细节。随着技术的发展，图像超分辨率技术已经广泛应用于医学影像、卫星遥感、视频监控、工业检测等多个领域。

本次任务设置了一个四倍超分赛道，追求极致画质效果。小米影像团队以显著优势摘得冠军。在这个赛道，小米影像团队团队提出了一种基于视觉Mamba的超分辨率模型。Mamba的特性在于其能够模拟长序列的长距离依赖性，这得益于其参数化方法，使其能够存储长序列的信息然而，Mamba是一个自回归模型，通常具有单向性，例如良好的时间属性和因果序列建模。

与Transformer相比，它不能模拟序列元素之间的关系。Transformer在各种任务中显示出了强大的优势，但它不擅长处理长序列信息。Mamba和Transformer的特性高度互补，因此团队设计了一个名为SSFormer的模块。超分辨率任务是一个像素密集型任务，因为它旨在从低分辨率图像中恢复高分辨率细节。

在这个过程中，模型需要在每个像素点执行密集计算，以预测和生成更高分辨率图像中的新像素点，因此在超分辨率任务中建模像素点的上下文关系更加重要。基于此，他们将SSFormer模块引入超分辨率任务，并构建了一个名为MambaSR的模型。为了进一步提升画质效果，他们进一步提出了一种基于kmeans聚类的超分辨率图像融合算法，该方法旨在生成一个综合了多个模型优势的高质量超分辨率图像。

超强的单模型+更好的融合算法助力小米影像团队取得了冠军。

03 NTIRE2024：Efficient Super Resolution Challenge

本次任务设置了两个高效率超分赛道，要求在运行时间约束下使得算法性能达到一个固定标准。小米影像团队以显著优势取得两个赛道的冠军。

在这个赛道，小米影像团队提出了一种基于无需参数的注意力机制的单图超分辨率模型，即Swift Parameter-free Attention Network（SPAN），旨在克服传统注意力机制在网络结构复杂性、推理速度缓慢和模型尺寸较大的问题。

SPAN通过引入一种新颖的无参数注意力机制，利用对称激活函数和残差连接来增强图像中高贡献的信息并抑制冗余信息，从而在简化网络结构的同时提高推理速度，且不牺牲图像质量。该模型在多个标准基准测试中表现出色，不仅在图像质量和结构相似性（PSNR/SSIM）上超越了现有的高效超分辨率模型，还在保持较低模型复杂性和参数数量的同时，实现了快速的推理速度。此外，SPAN在资源受限的实际应用场景中，如移动设备上，展现出了巨大的应用潜力和价值。

SPAN模型在多个标准图像超分辨率基准测试中表现出色，其性能在图像质量和推理速度上均超越了现有的高效超分辨率模型。这一成果在2024年的CVPR NTIRE上得到了展示，并通过实验验证了SPAN在实际应用中的有效性和优越性。

基于上述方法，小米影像团队针对比赛任务进一步简化模型，最后在近40支队伍的激烈竞争中脱颖而出，以大幅度优势击败了一众友商和高校的团队，最终取得了该赛道的双料冠军。

04 NTIRE2024：RAW Image Super-Resolution Challenge

本赛道的目标是对一个四通道 RAW 图像进行x2超分辨重建（可能包含模糊和/或噪声）。大多数的超分辨率方法是从 sRGB 图像开始，然后进一步放大它，以改善其质量。然而，在 sRGB 领域建模退化是复杂的，因为存在非线性 ISP 转换。尽管已知这个问题，但只有少数方法直接处理RAW图像并解决实际传感器退化问题。

在这个赛道里，小米影像团队提出了基于HAT的双分支网络结构，采用重参数化Conv来提高训练过程中的参数量，充分发掘本方案的潜力，有效提升超分辨重建质量。同时提出了Task-by-task和Step-by-step的训练方案，Task-by-task：将任务拆解为三个子任务（去噪、去模糊、x2超分辨率重建），Step-by-step：训练分为三阶段逐步增大训练数据的尺寸（64×64、128×128、256×256），采用这种方案充分利用了比赛提供的1000+组RAW训练数据提升重建质量。

基于此，小米影像团队在本赛道验证数据集和测试数据集上重建了高质量x2超分辨RAW图像，同时也取得了较高的PSNR和SSIM分数，获得第二名的成绩。

05 AIS：Vision, Graphics and AI for Streaming

AIS作为 CVPR 举办的第一届流媒体人工智能研讨会，其会议重点从现代深度学习的角度统一新的流技术、计算机图形学和计算机视觉方向展开探讨。

流媒体是一个巨大的行业，数以亿计的用户每天都需要不同平台上的高质量内容。计算机视觉和深度学习已成为渲染内容、图像和视频压缩、增强和质量评估的革命力量。从用于高效压缩的神经编解码器到基于深度学习的视频增强和质量评估，这些先进技术正在为流媒体质量和效率设定新标准。此外，新颖的神经表示还在渲染可流内容以及允许重新定义计算机图形管道和视觉内容方面带来了新的挑战和机遇。

06 AIS：Real-Time Image Super-Resolution Challenge

实时图像超分辨率重建挑战的目标是使用深度学习模型和商用GPU在30/60FPS（每幅图像30-16毫秒）的实时情况下提升高分辨率图像。本年度，本赛道的难度较往年进一步提升，从x3超分辨率重建提升至x4超分辨率重建，这就要求算法在保证实时性的同时还要进一步兼顾算法重建精度。

为此，团队提出了一种精简结构作为主干网络，该结构基于两个卷积和两个SPAB结构的堆叠。卷积部分采用重参数化技术构建，确保模型在训练阶段有足够多的参数，同时做到推理速度依然保持实时。此外，SPAB结构保证了特征的高效提取，使图像重建时获取更多精细且真实的细节。

最终，小米影像团队在比赛测试数据集上取得了先进效果，在保证了实时性的同时，在精度赛道荣获第二名。

本次CVPR 2024中，小米影像团队在各个赛道的突出表现，是对其过硬技术的有力验证。未来，小米将继续努力，为行业创造更多应用价值，让用户享受更好的拍照体验！

▍小米影像团队正在火热招聘中，诚挚邀请各位有志之士加入。有意向者可将简历发送至yinxuanwu@xiaomi.com邮箱。

参考文献：

Chen Z, Wu Z, Zamfir E, et al. Ntire 2024 challenge on image super-resolution (x4): Methods and results[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 6108-6132.
Chen X, Wang X, Zhou J, et al. Activating more pixels in image super-resolution transformer[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2023: 22367-22377.
Wan C, Yu H, Li Z, et al. Swift parameter-free attention network for efficient super-resolution[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 6246-6256.
Ren B, Li Y, Mehta N, et al. The ninth NTIRE 2024 efficient super-resolution challenge report[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 6595-6631.
Wu Y, Fan Z, Chu X, et al. MIPI 2024 Challenge on Demosaic for Hybridevs Camera: Methods and Results[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 1136-1143.
Conde M V, Lei Z, Li W, et al. Real-time 4k super-resolution of compressed AVIF images. AIS 2024 challenge survey[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 5838-5856.