喜报 | 小米相机团队在CVPR 2024斩获7冠2亚

近日,在计算机视觉领域最具影响力的顶级学术会议CVPR2024上,小米相机团队在MIPI、NTIRE和PBDL三大赛事,共9个赛道的比赛,凭借卓越的技术实力,击败国内外众多强劲对手,一举拿下7项冠军,2项亚军,取得了令人瞩目的成绩,充分展现了团队在移动影像领域的技术基础与硬核实力。

计算机视觉与模式识别大会 (Conference on Computer Vision and Pattern Recognition,CVPR),由 IEEE 计算机学会主办,每年一次,汇集了全球顶尖的学者、工程师和企业家,共同探讨计算机视觉与模式识别领域的前沿问题。

f73a6403bae7c73463716419c2d9d7ad.png

01

MIPI:移动智能摄影与成像

MIPI(Mobile Intelligent Photography and Imaging)作为由CVPR组委会承办的关于移动智能摄影和成像领域的研讨会,旨在推动新颖图像传感器与成像算法的集成与发展。随着移动平台上对计算摄影和成像需求的增加,开发与集成先进图像传感器和新型算法变得日益重要。

在本次MIPI赛事中,小米相机团队在多个赛道上表现卓越。在RAW域图像去噪赛道,团队更是凭借出色的技术实力获得冠军,并发表了一篇相关论文。此外,在Hybridevs相机去马赛克赛道和夜景耀斑去除赛道也是表现优异,团队共取得了两项冠军,一项亚军的佳绩。

2338c1ac68b045b65d1f32b8be30cc0f.png


RAW域图像去噪

RAW域图像去噪是一个极其依赖于相机传感器特性的任务,在小样本RAW域图像去噪赛道中,未知的相机类型、极少量的真实训练数据极大地增加了该任务的挑战性。

小米相机团队在RAW域图像去噪赛道,通过建立具有丰富噪声形态和不同噪声强度的合成噪声训练集,提高网络对真实噪声的泛化性,抛弃繁琐的噪声标定过程,打破图像去噪能力与特定相机参数的强绑定关系。凭借出色的技术实力获得了冠军,并在CVPR2024 Workshop上发表一篇论文。

*论文链接:

https://openaccess.thecvf.com/content/CVPR2024W/MIPI/html/Li_From_Synthetic_to_Real_A_Calibration-free_Pipeline_for_Few-shot_Raw_CVPRW_2024_paper.html

1fe172b261cb15aba9cd6efe5d0c88f2.jpeg

HybridEVS相机去马赛克

HybridEVS相机是一种新型的图像传感器,它结合了传统基于帧的传感器和基于事件的传感器的特点。小米相机团队在此领域已深耕多年,并积累了大量相关研究成果。

在HybridEVS相机去马赛克赛道的激烈争斗中,团队设计的基于SwinIR的改进算法,采用了由粗到细的二阶段多分支结构,有效弥补了HybridEVS相机相比传统传感器具有更多坏点的固有缺陷。在众多提交的方案中,该算法不仅提供了高质量的图像输出,而且在时间效率上也表现优异,最终荣获了亚军。

786ee0960ddaf6ee7c1fb69504217f48.png

耀斑去除

在夜景耀斑去除赛道上,小米相机团队更是凭借着创新的渐进感知扩散模型(PPDN),实现了主观效果一致性的突破。为了能够去除真实场景中各种各样的耀斑形态,团队还构建了高质量的训练数据集,通过随机亮度调整和光雾建模等技术手段,精准模拟真实环境下耀斑复杂的亮度分布,有效提升了算法的鲁棒性和泛化性。团队已经蝉联该赛道两届冠军。

68e382194cfbe4a0fe0423ad922c0c9e.png

02

NTIRE:“影像算法奥林匹克”

NTIRE(New Trends in Image Restoration and Enhancement)被誉为“影像算法奥林匹克”,是CVPR组委会承办的关于图像恢复与增强的顶级研讨会。小米相机团队已三次参与该赛事,并在今年参与的5个赛道中揽获4项冠军、1项亚军。

a9334349759f4d528a95ea49611c83f0.png

夜景摄影渲染

小米相机团队在夜景摄影渲染赛道中表现出色,已连续三年获得冠军。此次参赛,团队采用化繁为简、分而治之的思想,结合传统图像处理算法和深度学习算法(包括raw域的去噪和白平衡、RGB域的转换、影调增强和天空矫正等六个阶段),突破了传统硬件ISP的限制。在兼顾效果的前提下,团队以2倍的性能优势获得该赛道第一名。这也证明了小米相机团队在夜景处理上的技术领先性。

该技术同时作为夜枭算法的优化、升级版本,更是从小米11 Ultra到最新发布的小米14 Ultra都得到了应用,为用户带来了更具临场感和氛围感的夜景拍摄体验。

1c0b8a97b6e9b8d9b43805b4e3f81215.png

经过简单ISP处理后的图像

9769be5a90f7ed3945cb9aaf4b3fec39.png

算法处理后的图像


真实世界图像修复

小米相机团队在真实世界图像修复赛道中,凭借着新颖的数据构造方案和多种训练技巧,成功攻克了模型生成性和保真性的平衡问题,从200支参赛队伍中脱颖而出,以领先第二名近10分的优势夺得本赛道的冠军。

378bf6905d82b1bb0507bf254c619c7c.png

长焦摄像头拍摄效果

算法处理后效果

1d49fda0507c10c73c4a1867c914e366.png

综合效果小米排名第一

单目、双目深度估计

在单目和双目深度估计的赛道上,小米相机团队双双夺冠。面对高分辨率深度计算以及非朗伯表面深度估计的特殊挑战,团队巧妙地迁移了自研算法在真实世界中对镜面和玻璃材质的先验知识,并在深度大模型的训练过程中引入了多尺度特征信息。这种策略极大地提升了学生模型的训练效率,使其能够更高效地捕捉到丰富和细致的高分辨率特征,且确保了学生模型能够精确继承大模型在应对特殊场景时所拥有的鲁棒性和深度知识。最终,训练得到的学生模型展现出异常优异的推理性能,其效果远超基准大模型。

高分辨率镜面和透明表面图像深度估计挑战赛-单目赛道

在单目深度估计赛道,小米相机团队创新性地引入过往在人像渲染领域的语义分割和图像Inpaint模型结果,通过知识蒸馏,让单目深度估计大模型具有了感知镜面和透明表面深度的能力。保障了高分辨率条件下我们的模型依然有鲁棒效果优势,最终在挑战赛中获得了冠军。

06c92c1faf4e7217a3655497abe70a53.png

真实场景图片

26db8424474e6c5d87ffdbac516b454f.png

基准大模型结果

044200c13adfe80e1ee87596759d38e9.png

小米的模型结果

高分辨率镜面和透明表面图像深度估计挑战赛-双目赛道

在双目深度估计赛道中,小米相机团队使用了SOTA的IGEV-Stereo作为基础模型,为更准确地估计镜面和透明玻璃等物体的深度,首先训练了多尺度的教师模型来保障极限场景下的推理效果,然后利用多尺度教师模型为无标签数据生成伪标签,并进一步引入多尺度特征的知识蒸馏框架,进行高效知识蒸馏,得到推理性能和效果均优的学生模型,最终在测试集上获得了冠军。

7d4d7ef108daeb1485da3ef448d1aa7b.png


双目图像超分辨率 

在双目图像超分辨率赛道中,小米相机团队基于Transformer架构,精心设计了交叉注意力与高效的自注意力机制,使得模型在有限的参数量和计算量条件下,能够实现效果的最大化,再结合多种训练策略,完成了双目图像超分辨率任务的突破。最终取得第二名的好成绩,并在CVPR2024 Workshop 上发表一篇论文。

*论文链接:

https://openaccess.thecvf.com/content/CVPR2024W/NTIRE/html/Yang_Hybrid_Cross-View_Attention_Network_for_Lightweight_Stereo_Image_Super-Resolution_CVPRW_2024_paper.html

03

PBDL:基于物理的视觉与深度学习

PBDL(Physics Based Vision meets Deep Learning)作为基于物理的视觉以及深度学习两个领域的研讨会,旨在促进两个领域的交叉融合,探索如何将深度学习的强大能力应用于解决传统基于物理的视觉问题,以及如何利用物理原理来改进深度学习模型的性能。小米相机团队在“低光照RAW域图像增强”赛道上脱颖而出,以超出第二名4.16分的优势,荣获冠军。

8f198a75c924ece52fd8191fe17b7213.png

团队针对低光照环境下拍摄图像普遍存在的细节模糊、色彩偏差及严重噪声等问题,受Transformer与U-Net网络架构的启发,创新性地构建了一个轻量级U-Net结构算法,实现了低光照下传统相机硬件固定限制的突破。

9bea38439309a322fe0076a26d7b429e.jpeg

04

小米相机团队,载誉归来

小米相机团队已连续三年参加了CVPR相关赛事的角逐,均取得了优异成绩。今年更是在MIPI、NTIRE、PBDL三大赛事中,以7冠2亚的成绩满载而归。而这正是团队在各自领域内专精克难,以为用户带去自然、真实移动影像体验的共同目标的最佳体现。

三年来,小米相机团队不仅在冠军数量上逐年递增,更将在学术竞赛中探索、验证的创新方案与产业项目相结合,逐步落实到具体的业务中,不断积累、提升、沉淀专业技术。在此次大赛中获奖的RAW域图像去噪、夜景渲染、夜景去耀斑、大模型真实图像修复、深度估计等算法已经应用于最新发布的小米14 Ultra等系列手机中。这些算法在夜景、人像、HDR、SR等多个维度进一步提升了小米相机的画质表现。

除此之外,小米相机团队还投入了视觉大模型技术领域的研究,并在“真实世界图像修复”赛道中夺得冠军,充分展现了其在大模型领域的技术实力。在业务上,更是利用超大参数量的新一代网络架构,实现对细节恢复任务的充分理解及知识迁移,对远摄场景获得自适应超清优化效果,行业首发了端侧拍照大模型UltraZoom功能。而小米与徕卡合作共同打造的“小米徕卡风格影调”,更是进一步提升了手机摄影的画质和风格,为用户提供了更多个性化的拍摄选择,让专业摄影更简单,影像更真实。

本次 CVPR2024,小米相机团队在各个赛道的突出表现,是对小米相机核心技术的再一次检验,也是小米相机团队拥抱新技术、掌控新技术的精彩展示,未来,小米相机团队将不断努力创新,打造更出色的小米相机影像系统,给用户带来更好的拍摄体验!

7d13978b05d035c53a69f1e408d4cb20.gif

4752201cd78decefa93823425cb5cbc1.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值