- 博客(197)
- 收藏
- 关注
原创 DiCLIP:用扩散模型激活CLIP的密集知识,弱监督语义分割新SOTA
文章摘要 本文提出DiCLIP框架,通过扩散模型(SD)增强CLIP的密集知识,以解决弱监督语义分割(WSSS)中类激活图(CAM)质量低的问题。CLIP存在视觉注意力过度平滑和文本描述单一两大缺陷,导致CAM缺乏细节和多样性。DiCLIP包含两个模块:**视觉相关增强(VCE)**利用SD的细粒度注意力图优化CLIP的空间感知;**文本语义增强(TSA)**通过SD生成视觉键值缓存,将CAM生成转为知识检索任务,支持静态和动态检索模式。实验表明,DiCLIP在PASCAL VOC和MS COCO上显著提升
2026-06-12 10:23:32
489
原创 知识蒸馏概述
本文系统阐述了知识蒸馏的发展历程与前沿方法。知识蒸馏最初受人类师生学习模式启发,将复杂教师模型的知识迁移至轻量学生模型,以实现模型压缩与加速。随着研究深入,传统基于预训练教师的两阶段蒸馏框架暴露出计算开销大、性能不稳定等问题。为应对这些挑战,自蒸馏作为一种创新范式应运而生,通过在单一网络内构建多层次分类器实现内部知识迁移。自蒸馏不仅显著降低训练成本,还支持动态推理机制,可根据输入复杂度自适应选择计算路径。文章详细介绍了自蒸馏的网络架构设计、四种蒸馏策略及其在精度、速度和压缩方面的优势,为知识蒸馏从经验性技术
2026-06-12 09:36:58
380
原创 CVPR 2026 | 从扩散视角重新思考视觉归纳还原
【摘要】本文提出了一种基于扩散过程的新型视觉归纳还原方法,将物体重新排列建模为扩散正反向过程。不同于传统依赖状态差异比较的方法,该方案通过高斯混合模型表示点云数据,利用扩散桥模型模拟物体分布演化,采用Transformer架构的迭代去噪网络预测目标位置。在RoomR和自建数据集上的实验表明,该方法较现有最佳模型提升3.6%任务成功率,验证了分布空间推理的有效性。研究从热力学熵变角度重新定义视觉归纳任务,实现了对场景状态演变的精细建模。
2026-06-08 09:35:00
256
原创 CVPR 2026 Highlight | VideoCUPS:利用运动与深度线索,首个无监督视频全景分割框架,性能刷新 SOTA
慕尼黑工业大学等机构联合推出VideoCUPS,首次实现无需人工标注的无监督视频全景分割(VPS)。该方法仅需单目视频,通过运动线索和深度信息自动生成高质量伪标签,并引入VideoDropLoss和自增强训练策略提升性能。实验表明,VideoCUPS在Cityscapes-VPS等数据集上STQ指标达22.2%,跨域泛化能力强,且仅需10%标注数据微调即可达到全监督效果。这一突破大幅降低了VPS的应用门槛,为计算机视觉领域提供了高效的解决方案。论文和代码已开源。
2026-06-05 20:29:10
311
原创 深度图转换为3D点云
环境感知常用的传感器有激光雷达、单目相机、TOF、主动双目等感知传感器。本文主要阐述主动双目相机的深度图如何转换为3D点云数据,包括生成3D点云、彩色点云以及点云投影到图像”
2026-06-04 09:23:30
326
原创 点云降采样-DownSampling
激光雷达、双目相机等生成的原始点云数据量较大,不同线束的雷达产生的点云数量差异较大,整体来说,之前使用的2款激光雷达单帧点云数量可达5w、11w之多。如果感知直接处理原始数据,对板端资源占用较大、整体耗时也会偏大,因此,需要对传感器获得的原始点云降采样,以降低资源占用、加快数据处理。常用的点云降采样方法有:随机降采样、均匀降采样、体素滤波降采样、直通滤波等,下面主要介绍以上四种降采样方法及实现源码。
2026-06-04 09:14:04
203
原创 CVPR 2026 & T-ITS 2026 | 破局具身智能算力与泛化瓶颈:稀疏重建、几何融合与自适应规划打造最强具身大脑!
【前沿三维视觉与自动驾驶技术突破速览】三维重建领域迎来两项革新:1)Speed3R通过全局稀疏注意力(GSA)机制,将计算复杂度从平方级降至线性,实现12.4倍加速,同时保持精度,其双分支Token选择策略模拟了传统SfM的稀疏关键点思想;2)GGPT创新性地将稀疏几何先验融入稠密预测,通过3D空间自注意力强制多视角一致性,显著降低几何伪影,且展现出色跨域泛化能力。 自动驾驶方面,CarPLAN提出位移感知预测编码(DPE)和混合专家解码器(CMD),通过预测自车与环境的相对位移增强安全感知,并动态选择专家
2026-06-02 09:14:47
502
原创 TurboVGGT: Fast Visual Geometry Reconstruction with Adaptive Alternating Attention
本文提出TurboVGGT,一种基于自适应视觉几何Transformer的高效多视角3D重建方法。针对现有方法在计算效率与重建质量间的平衡问题,TurboVGGT创新性地设计了自适应交替注意力模块,包含三个关键组件:(1)自适应稀疏选择机制,动态调整不同帧和层级的稀疏度;(2)自适应稀疏全局注意力,学习代表性令牌进行高效全局几何建模;(3)帧内注意力聚合局部细节。实验表明,在7-Scenes等基准测试中,TurboVGGT在保持与VGGT相当的重建质量(相机位姿、深度和点云)的同时,推理速度提升2-4倍,最
2026-06-02 09:07:23
421
原创 基于边缘特征的相机图像-雷达点云多模态高精度配准
本文提出EdgeRegNet,一种基于边缘特征的图像与LiDAR点云配准网络。针对现有方法因下采样导致几何信息丢失的问题,该方法通过LSD算法提取图像边缘点,结合深度/反射率不连续性提取点云边缘点,保留原始分辨率信息。引入注意力机制实现跨模态特征交互,并采用最优传输理论进行全局匹配。实验表明,在KITTI数据集上平移误差仅0.54m,旋转误差1.65°,优于现有方法,且具有轻量高效和强泛化性的优势。
2026-05-27 09:45:26
541
原创 DINOv3是如何“看”世界的?
揭示了视觉Transformer模型从纹理到语义的渐进式理解过程。研究表明,在DINOv3的ViT架构中,特征理解呈现明显的层级递进:浅层(前11层)关注局部纹理和颜色特征,中层(11-15层)开始聚焦物体区域,深层则实现高度语义抽象。这种自监督学习形成的特征过渡具有普适性,不同规模的ViT模型(如12层的ViT-B或40层的ViT-g)都遵循"纹理→语义"的演变规律。可视化实验通过PCA降维清晰展现了24层ViT-Large从碎片化纹理响应到结构化语义理解的完整过渡,为计算机视觉任务中的特征选择提供了重要
2026-05-27 09:28:54
259
原创 Jasmine: Harnessing Diffusion Prior for Self-supervised Depth Estimation
本文提出Jasmine,首个基于Stable Diffusion的自监督单目深度估计框架。通过混合批次图像重建(MIR)代理任务保护SD视觉先验,无需高精度监督;设计Scale-Shift GRU(SSG)模块解决尺度分布不对齐问题。在KITTI基准上达到自监督方法SoTA性能(AbsRel 0.090),并展现卓越的零样本泛化能力。实验表明,Jasmine在多个数据集上优于现有方法,同时保持丰富的细节特征。这项工作突破了扩散模型依赖监督信号的限制,为自监督学习与基础模型结合提供了新范式。
2026-05-22 10:59:35
556
原创 3D-Fixer: Coarse-to-Fine In-place Completion for 3D Scenesfrom a Single Image
2026-05-22 09:40:26
41
原创 CVPR2026|雷达+相机多模态融合新SOTA
本文提出R4Det,一种基于4D雷达-相机融合的高性能3D目标检测方法。针对现有方法在深度估计、时间融合和小目标检测方面的不足,R4Det设计了三个核心模块:1)全景深度融合模块通过三重监督机制提升深度估计精度;2)可变形门控时间融合模块实现不依赖自车姿态的时间信息融合;3)实例引导动态细化模块利用2D实例特征校准BEV特征。实验表明,R4Det在TJ4DRadSet和VoD数据集上均达到最先进性能,特别在低光照和小目标场景表现优异。该方法为自动驾驶中的多模态感知提供了有效解决方案。
2026-05-16 10:08:57
385
原创 三模态融合的终极答案?清华团队用“事件边缘空间“统一图像、LiDAR与事件相机
《跨模态跨维度光流估计新范式:事件边缘空间统一异构数据》 清华大学团队提出x²-Fusion框架,通过事件相机的时空边缘特性构建统一表征空间(EES),解决多模态感知中的异构数据对齐难题。该研究创新性地利用事件流提取边缘原型作为对齐锚点,将图像和LiDAR特征动态映射到同质空间,并结合可靠性感知融合机制自适应调整各模态权重。实验表明,该方法在FlyingThings3D和KITTI等基准测试中达到SOTA性能,尤其在传感器退化场景下展现强鲁棒性。
2026-05-16 09:48:15
471
原创 借力RGB大模型!事件相机零样本玩转特征匹配与3D感知
摘要:多伦多大学团队提出REALM框架,通过将事件相机数据映射到RGB基础模型的共享潜空间,实现跨模态感知。该方法仅训练10%参数,使冻结的MASt3R模型能零样本处理事件数据,在特征匹配任务上AUC@5°提升至26.2%,部分场景性能提升9倍。REALM采用LoRA适配器和渐进式空间掩码训练策略,既保留RGB模型的几何语义先验,又解决事件数据稀疏性问题。实验表明其在宽基线匹配、深度估计等任务上超越专用方法,同时保持高效计算。该研究为缺乏标注数据的模态提供了一种嫁接成熟基础模型的新范式。
2026-05-16 09:38:43
432
原创 DCL:动态因果学习,破解跨模态心脏影像分割时空混淆难题
本文提出动态因果学习(DCL)框架解决跨模态心脏图像分割中的时空混杂问题。DCL通过多维因果干预模块在时空维度上解耦解剖学元素和模态元素,并引入扩散模块强化因果不变性。实验表明,DCL在MR、CT和US三种模态数据上均优于现有方法,消融实验验证了各模块的有效性。该方法成功分离了与分割相关的解剖特征和模态特征,为跨模态医学图像分析提供了新思路。
2026-05-16 09:26:18
405
原创 告别离散网格:InfiniDepth用神经隐式场重新定义深度估计
摘要: 浙江大学团队提出InfiniDepth,首次将神经隐式场引入单目深度估计,实现任意分辨率连续深度预测。通过多尺度局部隐式解码器(15M参数)和DINOv3 ViT-Large特征金字塔,该方法在合成数据集Synth4K上高频细节区域超越DepthAnythingV2等SOTA模型5-8个百分点。创新性InfiniteDepthQuery策略自适应分配子像素查询预算,显著改善大视角下的新视角合成质量。实验表明,纯合成数据训练的模型在真实场景零样本泛化能力与现有方法持平,同时突破传统离散表示的分辨率限制
2026-04-16 08:47:47
442
原创 CVPR‘26 | Adobe新作DAGE:高效细粒度的深度估计+姿态估计,三维重建新SOTA!
摘要: 本文提出DAGE,一种双流Transformer架构,用于高效、精细的几何估计。该模型通过低分辨率流处理全局一致性与相机姿态估计,采用交替注意力机制降低计算成本;高分辨率流则保留原始分辨率细节。轻量级适配器融合双流特征,实现全局一致且细节丰富的几何输出。实验表明,DAGE在3D重建、深度估计和相机姿态预测任务中达到SOTA性能,支持2K分辨率和长序列处理(最高1000帧),运行速度显著优于现有方法。其创新设计解决了高分辨率与多视图一致性的平衡问题,为视频几何建模提供了高效解决方案。
2026-04-15 10:05:15
595
原创 CVPR 2026 | 哈工大(深圳)&清华等提出 DreamPRVR:引入扩散模型“先想https://mmbiz.qpic.cn/sz_mmbiz_png/P9M象后检索”,刷新长视频检索三项榜单
摘要: 哈尔滨工业大学、清华大学等团队提出DreamPRVR模型,解决长视频检索中的"局部尖峰"问题。该模型通过扩散模型想象全局背景,生成语义寄存器,增强局部特征匹配的准确性。采用文本扰动采样和异步注意力机制,显著提升三大数据集(ActivityNet Captions等)的检索性能,同时保持高效推理。代码已开源,为多模态检索提供了新思路。
2026-04-15 09:58:09
401
原创 CVPR 2026 | TR2M:文本辅助的单目深度转换
论文作者:崔贝雷(香港中文大学),黄一鸣(香港中文大学),白龙(香港中文大学,阿里巴巴达摩院),任洪亮(香港中文大学)
2026-04-14 10:45:00
633
原创 单目深度估计新突破:PGD+SGD+SGC两阶段扩散框架实现细节与泛化统一
论文针对单目深度估计中“真实数据缺乏精细细节、合成数据存在域差”的核心矛盾,提出在有限数据条件下同时提升细节精度与跨域泛化能力的方法。为此,作者构建了一个两阶段“先验对齐→几何细化”的确定性扩散框架,并通过频谱门控蒸馏与一致性机制分别建模低频结构与高频细节。实验表明该方法在多种真实场景基准上实现了更强的泛化能力与更高的细节保真度,在数据效率与性能之间取得了良好平衡。
2026-04-14 09:30:38
412
原创 CVPR 2026 | NVIDIA推出Fast-FoundationStereo:首个实时零样本立体匹配大模型,速度飙升10倍!
NVIDIA推出Fast-FoundationStereo模型,在保持立体匹配大模型强大零样本泛化能力的同时,通过特征蒸馏、分块架构搜索和结构化剪枝等创新技术,将推理速度提升10倍以上,实现实时运行(47FPS)。该模型在多个基准测试中表现优异,既能媲美顶级泛化模型的精度,又具备实时处理能力,为自动驾驶等实时应用提供了高效解决方案。研究采用了知识蒸馏、互联网级真实数据伪标签等技术,有效解决了合成数据与真实场景的差距问题。相关成果已被CVPR2026接收。
2026-04-13 09:42:59
909
原创 SkyEvents: A Large-scale Event-enhanced UAV Dataset for Robust 3D Scene Reconstruction
作者:Wenzong Ma, Zhuoxiao Li, Jinjing Zhu, Tongyan Hua, Kanghao Chen, Zidong Cao, Da Yang, Peilun Shi, Yibo Zhou, Wufan Zhao, Hui Xiong。
2026-04-13 09:28:33
553
原创 InfiniDepth:用神经隐式场实现任意分辨率深度估计,效果惊艳!
摘要: 浙江大学等团队提出InfiniDepth,利用神经隐式场实现任意分辨率与精细化的单目深度估计。传统方法受限于离散网格表示,导致分辨率固定与细节丢失。InfiniDepth通过多尺度局部隐式解码器将深度建模为连续函数,支持任意坐标点查询,生成高保真深度图,尤其擅长处理栏杆、发丝等高频细节。实验基于自建4K合成数据集Synth4K及真实数据,结果显示其在分辨率和细节上显著优于现有方法(如DepthAnythingV2),同时支持高质量新视角合成。该框架为视觉任务中的几何表示提供了新思路。
2026-01-12 09:37:01
693
原创 CVPR 2025|BiM-VFI: Bidirectional Motion Field-Guided Frame Interpolation for Video with Non-uniform
本文提出BiM-VFI框架,通过双向运动场(BiM)解决视频插帧中的非匀速运动问题。创新点包括:1)提出BiM表示法,用幅值比例R和方向差角Φ同时解决速度和方向变化带来的时间-位置歧义;2)设计BiM引导的光流网络(BiMFN),在光流生成阶段就约束解空间;3)引入面向VFI的知识蒸馏(KDVCF),用目标帧参与的Teacher生成VFI专用光流监督Student。实验表明,BiM的方向信息是关键,KDVCF比传统光流监督更有效,自适应上采样模块(CAUN)对小物体和边界处理至关重要。可视化结果证实,BiM
2026-01-04 14:51:23
885
原创 TPAMI 2025 | 纯视觉逼近激光雷达,Hi-SOP 刷新 3D 占据预测 SOTA
本文提出Hi-SOP框架,通过层次化上下文对齐范式解决3D语义占据预测中的几何与时间特征错位问题。该框架包含几何对齐、时间对齐和全局融合三个模块:GCL模块缓解深度估计不确定性,CPA+ADR策略实现动态场景的跨帧语义对齐,DHBT确保上下文融合一致性。实验表明,Hi-SOP在SemanticKITTI、NuScenes-Occupancy等数据集上全面超越现有方法,甚至在LiDAR语义分割任务中接近纯LiDAR方案性能,首次证明了纯视觉方法在密集3D语义感知中的潜力。该工作为自动驾驶场景理解提供了新思路。
2026-01-04 14:47:00
896
原创 ACM MM 2025 | 眩光去除进入Mamba时代!北师大DeflareMamba:全局-局部双维优化,双指标登顶
本文提出DeflareMamba框架,首次将Mamba架构应用于镜头眩光去除任务。通过分层设计结合局部增强与分层选择性扫描机制,在保持线性计算复杂度的同时,有效建模局部细节与全局结构关系。实验表明,该方法在Flare7K++数据集上PSNR达30.215dB,超越现有技术,并显著提升下游任务性能。创新性的U形网络结构与多尺度特征融合策略,为解决眩光去除中的长距离依赖问题提供了新思路。
2025-12-24 09:21:27
894
原创 全景图单目尺度深度估计基座模型
影石Insta360联合多所高校推出全景深度估计基础模型DAP,通过构建200万张全景图数据集和渐进式三阶段训练方法,有效解决了数据稀缺和泛化难题。该模型采用DINOv3-Large作为骨干网络,结合几何感知优化策略,在多个基准测试中展现出优异的零样本性能。DAP不仅能精准处理真实拍摄的全景图像,对AIGC生成的艺术风格图像也表现出良好适应性,为全景深度估计提供了新的研究思路和实践路径。相关代码和论文已开源。
2025-12-24 09:13:57
949
原创 基于 Retinex 的 TempRetinex:适用于不同光照条件下低光视频的无监督增强方法
本文提出TempRetinex,一种基于Retinex理论的无监督低光视频增强方法。针对现有方法面临的配对数据稀缺、时间不一致和光照多样性三大挑战,该方法创新性地结合自适应亮度调整(ABA)预处理和多尺度时序一致性损失,通过LD-Net、RE-Net和RD-Net三个子网络协同工作,实现反射分量和光照分量的有效分离与增强。实验结果表明,该方法在BVI-RLV和DID数据集上显著优于现有无监督方法,PSNR提升达29.7%,并通过反向推理策略进一步优化离线处理效果。
2025-12-22 15:05:57
1131
原创 Nano Banana Pro (Gemini 3 Pro) 是低层视觉全能选手吗?
最近,文生图(Text-to-Image)模型的进化速度让人惊叹,它们在视觉内容创作领域掀起了一场革命。像Nano Banana Pro这样的商业产品(),更是吸引了无数眼球。不过,大家普遍关心的是,这个有着谷歌旗舰血统的强大模型除了能“画画”,能不能也作为一种通用的解决方案,去解决那些传统的、更基础的计算机视觉问题,比如图像去噪、超分辨率等?今天我们要解读的这篇技术报告,就深入探讨了这个关键问题:Nano Banana Pro算得上一个低层视觉的全能选手吗?
2025-12-22 14:46:50
955
原创 NeurIPS 2025 | 从像素映射到分布估计:基于LASQ框架的低光照图像稳健增强
本文提出LASQ框架,通过亮度分层统计建模与MCMC采样实现无监督低光照图像增强。该方法将像素级映射转化为亮差分布估计问题,结合物理感知模型与扩散学习机制,在保持细节的同时提升泛化能力。实验表明,LASQ在多项指标上接近监督方法水平,在跨场景测试中展现出优越的稳健性。该研究为低光照增强提供了新的物理建模与数据驱动融合范式。
2025-12-19 09:53:35
1095
原创 夜视仪下岗?北京理工新算法:4K暗光RAW秒变高清,速度超146帧!
本文提出了一种高效的低光环境下RAW图像增强网络ERIENet。该网络通过多尺度并行特征提取架构和绿色通道引导(GCG)支路,充分利用RAW图像中绿色通道信息更丰富的特性。核心创新包括通道感知残差密集块(CRDB)和小波变换损失函数设计,在保持轻量化的同时提升图像质量。实验表明,ERIENet在SID和ELD数据集上实现了性能与效率的平衡,推理速度达146FPS,参数量仅1.419M。消融研究验证了多尺度并行和GCG分支的有效性。该方法为移动端实时低光增强提供了新思路。
2025-12-19 09:41:55
686
原创 NVIDIA等联手打造“模糊扩散模型”:让AI学会像相机一样“思考”去模糊
本文提出BlurDM模型,通过双扩散机制改进图像去模糊效果。该模型在正向过程中模拟模糊形成的物理过程,同时添加结构化模糊和随机噪声;逆向过程则通过模糊残差估计器和噪声估计器实现双去噪与去模糊。BlurDM采用三阶段训练策略:先获取理想清晰先验,再训练扩散模型生成先验,最后联合微调整个系统。实验表明,该模型能显著提升现有去模糊网络的性能,在多个数据集上PSNR提升0.31-0.78dB,同时保持计算效率。这种将物理先验与扩散模型结合的方法为图像复原任务提供了新思路。
2025-12-18 09:41:56
1009
原创 FMA-Net++: Motion- and Exposure-Aware Real-World Joint Video Super-Resolution and Deblurring
本文介绍了一种新型视频修复方法FMA-Net++,由KAIST和Chung-Ang University团队提出。该方法创新性地将动态曝光因素纳入视频修复过程,解决了传统方法假设固定曝光导致的修复质量不稳定问题。FMA-Net++采用解耦设计,包含退化学习网络(Netᴰ)和恢复网络(Netᴿ),通过分层细化双向传播块(HRBP)实现并行长程时间建模,并结合曝光感知模块(ETM)动态调整修复策略。实验表明,该方法在静态多曝光数据集REDS-ME和动态随机曝光数据集REDS-RE上均表现优异,同时保持高效推理速
2025-12-18 09:11:49
770
原创 DepthDark让单目深度估计在低光环境下也能火眼金睛
本文提出DepthDark模型,用于解决低光环境下单目深度估计的挑战。通过设计低光数据集生成(LLDG)模块和低光参数高效微调(LLPEFT)策略,该模型有效克服了噪声放大和光度不一致问题。LLDG结合光晕模拟和物理噪声模型生成74,000对高质量训练数据;LLPEFT采用光照引导和多尺度特征融合技术,在几乎不增加参数的情况下显著提升性能。实验表明,DepthDark在nuScenes-Night和RobotCar-Night数据集上分别取得0.210和0.157的ABSrel误差,优于现有方法。该研究为低
2025-12-16 10:48:25
1154
原创 一文搞懂 SCI、SSCI、CSSCI、C 刊、核心期刊:定义、作用、层级对比及投稿选择
学术期刊投稿指南:国际与国内期刊的核心区别与选择策略 本文系统梳理了国际期刊与国内期刊的分类逻辑及投稿策略。国际期刊(SCI/SSCI/EI)主要面向自然科学、医学和工程领域,采用英文发表;国内期刊(CSSCI等)则更适合人文社科研究。文章详细解析了SCI(自然科学)、SSCI(社会科学)和CSSCI(中文社科)等核心索引的区别,强调C刊(CSSCI)是核心期刊中的"VIP",而非所有核心期刊的统称。针对不同研究者,提供了投稿建议:在读学生应优先考虑CSSCI(文科)或SCI/EI(理工
2025-12-16 10:35:18
4389
原创 Just image Transformers重塑扩散模型的生成范式
MIT何恺明团队提出JiT方法,直接预测干净图像而非噪声,突破了传统扩散模型局限。基于流形假设,研究证明预测干净数据在高维空间中更具优势,并通过实验验证x-pred方法在欠完备状态下的有效性。JiT采用标准ViT架构,无需tokenizer或预训练,即可在ImageNet上实现高分辨率图像生成。实验表明,仅集成通用Transformer组件即可构建高性能扩散模型,且模型具有良好的可扩展性。该研究为构建简洁通用的生成模型提供了新思路,适用于计算机视觉及其他自然数据领域。
2025-12-16 10:00:00
1114
原创 ICCV 2025 | 去模糊新范式!残差引导 + 图像金字塔,强噪声下核估计精度提升 77%,SOTA 到手
《BlindNoisyImageDeblurringUsingResidualGuidanceStrategy》提出创新性残差引导策略(RGS),有效解决传统盲去模糊方法在噪声干扰下的性能下降问题。该方法通过图像金字塔的多尺度处理,利用残差计算与引导滤波实现噪声抑制与细节保留的平衡,无需训练即可超越深度学习方法。实验表明,该方法在PSNR、SSIM等指标上显著提升,并能作为通用模块增强现有算法性能。这项研究为实际应用中的低质量图像恢复提供了可靠解决方案。
2025-12-15 09:42:52
1007
原创 IROS 2025 | 北理工提出BoRe-Depth:仅8.7M参数,在嵌入式设备实现50.7 FPS高清深度估计
本文提出了一种面向嵌入式系统的自监督单目深度估计方法BoRe-Depth,旨在解决轻量化模型深度估计中边界模糊的问题。该方法采用创新的增强特征自适应融合模块(EFAF)和两阶段训练策略:第一阶段通过视图重建损失和边界对齐损失进行初步训练,第二阶段引入语义信息损失优化边界细节。实验表明,在NYUv2和KITTI等数据集上,BoRe-Depth仅用8.7M参数即达到SOTA性能,特别是在边界质量指标上表现优异,同时具备良好的泛化能力。该方法为嵌入式设备提供了高效的实时深度估计解决方案。
2025-12-15 09:37:38
1420
原创 PW-FNet:告别复杂自注意力,小波与傅里叶变换打造轻快强效的图像恢复新基线
北京航空航天大学与中国空间技术研究院联合提出了一种高效图像恢复新方法PW-FNet。该研究创新性地融合小波变换和傅里叶变换,取代传统Transformer架构:通过金字塔小波分解实现多尺度处理,利用傅里叶变换高效捕获全局信息。实验表明,PW-FNet在去雨、去模糊等8项任务上超越SOTA方法,同时参数量仅为NeRDRain的1/16,计算成本降至1/5。该工作为轻量级图像恢复技术在实际应用中的部署提供了新思路。
2025-07-26 12:30:00
753
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅