- 博客(6746)
- 资源 (2)
- 收藏
- 关注
原创 【荐读IEEE TPAMI】基于模型的强化学习与独立想象力
在基于视觉的交互系统中,世界模型学习行动的后果。然而,在实际场景中,如自动驾驶,存在不可控制的动态,这些动态独立于或与行动信号稀疏相关,这使得学习有效的世界模型变得具有挑战性。为了解决这个问题,我们提出了Iso-Dream++,这是一种基于模型的强化学习方法,具有两个主要贡献。首先,我们优化了逆动力学,鼓励世界模型从环境混合的时空变化中隔离出可控制的状态转换。其次,我们基于解耦的潜在想象进行策略优化,我们将不可控制的状态滚动到未来,并将其与当前可控制的状态自适应地关联起来。
2024-05-18 19:15:00
1356
原创 【荐读IEEE TPAMI】无监督去雨:非对称对比学习与自相似性相遇
大多数现有的基于学习的去雨方法都是在合成的雨-清洁对上进行有监督训练的。合成雨与真实雨之间的领域差距使它们在复杂的真实雨场景中的泛化能力降低。此外,现有方法主要独立利用图像或雨层的属性,很少有方法考虑它们之间的相互排斥关系。为了解决这一困境,我们探索了每层内部的内在自相似性以及两层之间的相互排斥性,并提出了一种无监督的非局部对比学习(NLCL)去雨方法。非局部自相似性图像块作为正样本被紧密地拉在一起,而雨块作为负样本则被显著地推开,反之亦然。
2024-05-13 12:24:06
1206
转载 网友热议:大学青年教师的收入怎么样?
前三年副教授待遇(专业七级岗)基本工资6000多,预发年终绩效70%,加起来每个月到手九千多,年终发剩下30%不到两万,第一年没有这个年终,第二和第三年有,第四年开始讲师待遇年终和基础薪资都会降低,应该是每个月基本工资四五千,年终一两万。另外商学院考核和工资另外,市场65-75,考核要求本专业领域top5期刊4篇,比如Finance是JF,JFE,RFS,JFQA,ROF。这是一个大合同,里面涉及采购,安装,设计,还涉及了好几个厂家,整体的利润分到组里面,还要再分的,我的角色就是这个价位。
2026-01-16 19:01:00
4
原创 TPAMI 2025 | 突破多视图依赖!Gamba 单图输入 + 端到端训练,3D 高斯重建碾压 SDS 与 NeRF 方法
近期发表于TPAMI的研究《Marry Gaussian Splatting with Mamba for Single-View 3D Reconstruction》提出了名为Gamba的创新框架,通过将3D高斯溅射(3DGS)与Mamba架构深度融合,首次实现了毫秒级单视图3D重建,同时保持了优异的重建质量。这种约束机制彻底摆脱了对3D点云监督的依赖,使端到端训练成为可能。:3D高斯的离散性与非结构化特性使其难以直接通过图像监督训练,现有方法依赖3D点云预训练或多阶段流程,限制了端到端优化的可能性。
2026-01-16 19:01:00
625
转载 YOLO26 正式开源!无NMS推+CPU 性能提升43%,面向边缘视觉AI的新一代YOLO模型
Ultralytics 发布 YOLO26:首次砍掉 DFL 与 NMS,用 ProgLoss+STAL 小目标优化与 MuSGD 优化器,在 CPU 实现 43 % 提速,Nano 版边缘推理延迟再降,同步推出开放词汇分割 YOLOE-26,支持 TensorRT/CoreML 一键导出。与 YOLO11 相比,YOLO26 的 Nano 版本在 CPU 推理场景下最高可实现 43% 的性能提升,成为目前边缘端和基于 CPU 部署场景中速度与精度兼顾的领先目标检测模型之一。
2026-01-14 22:11:49
316
转载 ICCV 2025 | 顶会成果!DiffRefine:多步去噪 + 空间约束,破解跨域点云检测稀疏难题
在自动驾驶感知系统中,3D目标检测的鲁棒性往往受限于点云数据的域差异——当激光雷达从64线换成32线,或从城市道路换到高速场景,远处目标的稀疏点云就成了检测系统的"阿喀琉斯之踵"。与对整个点云进行 densification 的传统思路不同,DiffRefine聚焦于第一阶段检测输出的边界框提议,只对框内区域进行点云生成。这种设计使生成的点云能直接参与检测网络的梯度更新,解决了传统生成方法与检测模型优化脱节的问题。图5:不同方法在稀疏点云场景下的检测结果对比,DiffRefine有效减少误检。
2026-01-14 22:11:49
17
转载 2026 CS Rankings 发布!上交、清华并列世界第一,你学校排第几?
从整体来看,中美高校与科研机构优势依旧显著。在全球 TOP 100 中,美国高校占据 46 席,中国占据 28 席。分别位列全球第 3 名和第 5 名,使中国高校在全球 TOP 5 中占据了 4 个席位。传统强校卡内基梅隆大学(CMU)首次退居并列第 3 名,但仍保持着美国高校中的最高排名。放眼全球前十,中国高校共占据 6 个席位,呈现出明显的霸榜态势。除了整体排名,CSRankings对众多热门细分方向也进行了排名。22 所中国内地高校、5 所中国香港高校以及中国科学院。中,中国高校表现格外亮眼。
2026-01-13 19:33:24
51
原创 TPAMI 2025 | 端到端统一框架!JointFormer凭压缩内存机制刷新视频目标分割SOTA
在计算机视觉领域,视频目标分割(VOS)一直是极具挑战性的任务,它要求仅根据第一帧的掩码注释,在整个视频序列中精准跟踪和分割目标。近日,Jiaming Zhang等人提出的JointFormer框架,通过创新性的联合建模思路,在多个主流基准测试中刷新了最先进性能,为VOS领域带来了突破性进展。如表1所示,即使不使用合成预训练,JointFormer仍大幅超越SwinB-DeAOTL和Cutie等先进方法,尤其在复杂测试集上的优势更明显,证明其处理细节目标的能力。
2026-01-13 19:33:24
404
转载 院士:青年科学家5年内拿不出成果就面临淘汰,有的单位已现「马太」效应,重复给某一人奖励
在院士评审环节,有关部门向他所在的单位征求意见时,参加座谈会的同事说,卢耀如受这么大的挫折还能当院士,完全得益于在他在贫困地区不计较名利,坚持为国家多做贡献。卢耀如院士在淮河、新安江、海河、长江、黄河、珠江及其它流域,曾负责及指导北京官厅水库、新安江水电站、三峡(石灰岩坝区)、乌江渡等百多座大、中、小型水利水电枢纽的勘测与研究工作。“新中国成立之初,一批从延安来的老干部认识到自己的科学知识水平不怎么高,国家建设需要懂科学技术的人才,他们很尊重科学家和青年科学工作者,放心、放手地把工作交给青年人才去做。
2026-01-12 21:55:50
14
转载 CVPR 2025 | 低光照场景克星!DeepDeblurRF在真实模糊数据集上实现卓越性能
随着BlurRF系列数据集的公开,我们有理由相信,辐射场技术将在更复杂的现实场景中发挥作用——无论是监控录像的视角合成,还是手机拍摄的运动场景重建,模糊都将不再是阻碍。为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。而单纯的单图像去模糊网络同样行不通——单张图像包含的信息有限,去模糊结果往往存在伪影,直接用于辐射场训练只会"以讹传讹"。,首次将深度去模糊网络与辐射场构建有机结合,让模糊图像也能生成清晰的新视图。
2026-01-12 21:55:50
17
原创 TPAMI 2025 | 突破效率与泛化瓶颈!DiffTF++ 以改进三平面 + 3D 感知 Transformer,领跑大词汇量 3D 生成
新加坡国立大学等机构的研究团队提出的DiffTF++模型,通过创新的3D感知扩散Transformer架构,在这一挑战中取得了突破性进展。DiffTF++通过创新的三平面表示、3D感知Transformer架构及两阶段优化策略,首次实现了单一模型对200+类别3D对象的高效生成。50余名志愿者的盲测结果显示,DiffTF++生成的3D对象在逼真度和细节丰富度上获得最高评分,尤其在洋葱、草莓等表面复杂的类别上优势明显。这两项技术的结合,使生成的3D模型在拓扑结构合理性和纹理逼真度上实现质的飞跃。
2026-01-11 19:14:59
921
原创 TIP 2025 | 轻量模型新标杆:CAEs驱动的变分贝叶斯框架,刷新图像恢复SOTA
在计算机视觉领域,图像恢复技术一直是研究热点。表III的对比数据显示,VBLE在计算效率上具有显著优势:生成100个后验样本的速度远快于DiffPIR、DDRM和PnP-ULA,同时GPU内存占用更低,这使其更适合实际应用场景。在BSD数据集上(表II),VBLE在多种反问题中均保持前两名的稳定表现,尤其在运动模糊修复任务中表现突出,充分证明了其处理多样化自然图像的能力。这种设计的精妙之处在于:既保留了生成模型的结构先验,又通过变分推断实现了高效的后验估计,同时避免了传统方法的计算瓶颈。
2026-01-11 19:14:59
615
原创 TIP 2025 | 多机构联合提出对齐增强网络:破解视觉语义对齐难题,零样本学习新突破
传统方法往往受限于视觉特征中的冗余噪声和静态语义代理的局限性,难以实现高效的视觉-语义对齐。近期发表的论文《Denoised and Dynamic Alignment Enhancement for Zero-Shot Learning》提出了一种创新的对齐增强网络(AENet),通过去噪与动态语义生成的双重机制,在多个基准数据集上刷新了零样本学习的性能上限。尤其在广义零样本学习(GZSL)设置下,AENet在保持已见类别识别率的同时,大幅提升了未见类别的识别性能,解决了传统方法的"偏见问题"。
2026-01-10 21:46:38
380
原创 TPAMI 2025 | 多团队联合提出MB-TaylorFormer V2:泰勒展开+多分支线性Transformer,图像恢复刷新SOTA
然而,传统Transformer的Softmax注意力机制存在二次计算复杂度的瓶颈,严重限制了其在高分辨率图像处理中的应用。近期,来自国内团队的研究成果《MB-TaylorFormer V2: Improved Multi-branch Linear Transformer Expanded by Taylor Formula for Image Restoration》为这一难题提供了创新性解决方案,在去雾、去雨、去雪、运动去模糊和去噪等多个任务中刷新SOTA性能。
2026-01-10 21:46:38
236
原创 CVPR 2025 | 港大联合团队提出 DnLUT:统一通道 - 空间建模的超高效去噪,现有 LUT 方法插 PCM 即提 1dB
清华大学团队提出的DnLUT框架,通过创新性的通道感知设计,首次在500KB存储空间内实现了媲美深度学习模型的彩色图像去噪性能,为边缘设备的高效图像处理开辟了新路径。这种设计的精妙之处在于:既通过通道对捕捉跨通道依赖关系(如红色通道噪声与绿色通道的关联性),又通过1×2卷积保留水平空间信息,同时4D索引(两个通道各两个空间位置)维持了存储可行性。如图4所示,L形核通过非重叠旋转策略,在四次旋转过程中精确覆盖9个像素点,既避免了信息冗余,又大幅降低了存储压力,为多层级空间建模提供了可能。
2026-01-09 20:38:56
1000
原创 TPAMI 2025 | 告别体素几何盲区!VMNet 以欧氏 + 测地线双信息,实现更精准的室内 3D 场景语义分割
近日,发表于TPAMI 2025的研究论文《Voxel-Mesh Network for Geodesic-Aware 3D Semantic Segmentation of Indoor Scenes》提出了一种创新性的体素-网格网络(VMNet),通过融合欧几里得信息与测地线信息,有效解决了传统方法的固有缺陷。网络架构细节如图4所示,欧几里得分支采用13个残差块与7级稀疏体素特征图,测地线分支对应设计基于注意力机制的残差结构,确保特征尺度匹配与有效融合。
2026-01-08 19:02:42
901
原创 ICCV 2025 | 双驱动混合网络BDHNet:解锁事件相机与图像融合的运动去模糊SOTA方案
传统的基于帧的相机在面对快速运动或复杂光照条件时,由于缺乏必要的运动信息,去模糊效果往往不尽如人意。而事件相机的出现为解决这一问题提供了新的可能,它能以高时间分辨率捕捉亮度变化,突出高对比度边缘,其中包含的运动信息有助于恢复模糊图像中丢失的细节。这一机制使得在事件流稀疏的模糊区域,神经元也能有更多的响应,从而增强SNN提取详细运动特征的能力。即使在REBlur数据集上未经微调,直接应用在GoPro数据上训练的模型,也取得了最佳性能,PSNR为36.01,SSIM为0.967,体现了其强大的泛化能力。
2026-01-08 19:02:42
985
原创 TMM 2025 | CNN+Transformer协同作战:WHANet重构高光谱图像实现全局-局部最优
近期,一篇名为《WHANet: Wavelet-Based Hybrid Asymmetric Network for Spectral Super-Resolution From RGB Inputs》的论文提出了创新性解决方案,通过小波变换与混合网络架构的结合,有效解决了传统方法中高频信息丢失导致的空间退化问题。在CAVE和HARVARD数据集上,WHANet在RMSE、PSNR、SSIM和SAM四项指标上均保持领先,尤其在SAM指标上分别降低10.2%和5.5%,证明其在光谱保持方面的显著优势。
2026-01-07 10:06:06
685
转载 2025年国家杰青最新名单
国家杰青、优青项目从国自然查询系统移除之后,这些项目不再向社会公开。2025年起,国家杰出青年科学基金项目更名为青年科学基金项目(A类)。2025年青年科学基金项目A类。2025年青年科学基金项目A类。
2026-01-07 10:06:06
31
原创 ICCV 2025 | 新范式!CCA 因果适配器:解纠缠表征 + 双向跨注意力,少样本学习性能 & 鲁棒性双突破
研究表明,CLIP通过多模态对比学习获得的特征,本质上是真实潜在变量的线性混合。CCA框架在冻结CLIP编码器的前提下,仅微调少量适配器参数,配合交叉熵损失和SGD优化器,大多数数据集仅需20轮训练即可达到最优性能。当在ImageNet上训练的模型迁移到ImageNetV2和ImageNet-Sketch时,CCA-FT表现出更强的适应能力,证明解缠特征确实增强了模型对分布变化的抵抗力。与CoOp等方法相比,CCA-FT在训练时间上具有显著优势,同时保持更高的准确率,更适合实际应用场景。
2026-01-06 19:02:06
756
原创 TPAMI 2025 | 45万样本训练的HyperSIGMA:首个高光谱基础模型攻克空间-光谱冗余难题
近日,由国内外多所高校和研究机构联合开发的HyperSIGMA模型,彻底改变了这一局面——作为首个专为高光谱图像解译设计的十亿级基础模型,它为高、低级任务提供了统一解决方案,相关成果已发表于TPAMI 2025。研究团队筛选了EO-1和GF-5卫星2011-2017年间的观测数据,经过严格的云量过滤、位置筛选和波段标准化,最终构建了包含447,072个64×64高光谱图像块的大规模数据集。HyperSIGMA的出现,标志着高光谱智能理解进入“基础模型时代”,为地球观测领域的智能化发展开辟了新路径。
2026-01-05 20:31:53
575
原创 ICCV 2025 | 几何视角重构卷积!Metric Convolutions 显式建模图像流形,去噪泛化 gap 骤降且分类更聚焦目标
ICCV 2025 最新研究《Metric Convolutions: A Unifying Theory to Adaptive Image Convolutions》首次从度量几何视角构建了自适应卷积的统一理论框架,提出的"度量卷积"方法不仅实现了对现有卷积形式的几何解释,更以更少的参数实现了更优的适应性与可解释性。传统卷积的固定核结构在处理变形物体、复杂空间变换时暴露出显著局限性,尽管学术界已提出空洞卷积、可变形卷积等改进方案,但这些方法缺乏统一的理论支撑,如同散落的珍珠未能串联成链。
2026-01-05 20:31:53
500
转载 有用!收藏!Claude Code创始人首次公开:我的13个使用技巧!
使用 Claude Code 并没有所谓的唯一正解:我们在构建它时就特意设计成这样,你可以按照自己喜欢的方式去使用、定制,甚至大肆改造它。这是我用过最好的编程模型。虽然它比 Sonnet 更大、更慢,但因为它更听劝(需要引导的地方少)且更擅长使用工具,从结果来看,它几乎总是比用小模型效率更高。虽然 Claude 本身生成的代码格式就很不错,但这个钩子能搞定最后 10% 的细节,避免之后在 CI(持续集成)中报错。不少人问起我是如何使用 Claude Code 的,那我就来展示一下我的设置吧。
2026-01-04 19:01:29
57
原创 TPAMI 2025 | 告别 ResNet!UniMatch V2 以 ViT 新基线 + 互补 Dropout,突破半监督语义分割性能上限
实验表明,仅将编码器从ResNet-101替换为参数更少的DINOv2-S,即可在Pascal数据集实现3%的性能提升,Cityscapes数据集提升4%,揭示了编码器升级的巨大潜力。:实验发现DINOv2编码器对特征级增强的敏感性显著降低(特征级损失仅为图像级的1/6),因此将输入级强增强(颜色抖动、CutMix等)与特征级Dropout融合为单一流程。该设计在保持增强空间完整性的同时,大幅提升训练效率。与V1的随机双增强相比,该方法能生成更具判别性的双视图特征,增强模型对特征扰动的鲁棒性。
2026-01-04 19:01:29
730
转载 拒稿后,审稿人“不小心”投稿发表了论文!网友:得多粗心才能在别人的稿件上署自己的名?
前段时间,在巴基斯坦Abdul Wali Khan University Mardan(阿卜杜勒·瓦利汗大学)工作的化学家Muhammad Kashif 通过其在学术不端打击网站Retraction Watch订阅的警告提醒邮件收获了一份天大的“惊喜”—— 在他研究领域内新发表的一篇论文,其内容与他已提交但未发表的论文内容“substantial overlap(大量重复)”。此外,除了“偷盗”他人论文的一作Sujit Kumar,这篇论文的其他作者也已经被盯上了。以上都是论文真正的作者进行的投稿操作。
2026-01-03 19:31:12
36
原创 TPAMI 2025 | 预训练数据影响深!TriDA 框架创新三域建模,无监督域自适应技术迎来新范式
在深度学习与计算机视觉领域,无监督域适应(UDA)技术通过弥合有标签源域与无标签目标域的分布差异,有效解决模型泛化性问题,已成为研究热点。如图2所示,即使适应过程中未直接引入预训练数据,源域与预训练域的距离(W(s,p))、目标域与预训练域的距离(W(t,p))仍持续减小,表明预训练数据通过初始权重深刻影响着特征分布演变。:构建预训练数据与目标域的插值中间域(eₓ=λxₚ+(1-λ)xₜ),设计语义一致性损失(Lₛₑₘ)与特征平滑损失(Lբₑₐₜ),减小预训练域与目标域的梯度差异,降低目标风险边界。
2026-01-03 19:31:12
378
转载 TMM 2025 | 低质深度图也能高效利用!DPPNet 为 RGB-D 显著目标检测提供全新解决方案
实验数据显示,在NJU2K和NLPR等基准数据集上,不可靠深度图占比高达30%-40%(图2a、2c),而现有模型在这类数据上的性能会出现显著下降(图2b、2d)。DPPNet采用双流多分支架构(图3),通过并行处理RGB与深度信息,实现跨模态特征的高效融合。:采用Otsu方法对深度图二值化,通过8×8滑动窗口计算与真值图的结构相似性(SSIM),生成像素级潜力标签(图1)。模型复杂度分析表明(图9),在参数规模适度增加的情况下,DPPNet通过优化特征交互效率,实现了FLOPs的有效控制。
2026-01-02 20:38:36
47
原创 TPAMI 2025 | 新框架!UniMODE 靠两阶段检测 + 领域自适应归一化,刷新 Omni3D 单目 3D 检测 SOTA
近期发表于TPAMI 2025的研究《Towards Unified 3D Object Detection via Algorithm and Data Unification》提出了一套完整的解决方案,通过算法创新与数据统一双管齐下,首次实现了室内外场景的3D目标统一检测。这种设计在不增加总网格数量的前提下,既保证了室内小物体检测精度,又满足了室外大范围感知需求。未来,随着MM-Omni3D等基准的普及,统一3D目标检测有望成为计算机视觉的新研究热点,推动智能体环境感知能力的实质性突破。
2026-01-01 18:59:34
522
原创 TPAMI 2025 | 新突破!IGTR:轻量指令编码器 + 跨模态融合,场景文本识别实现 “先理解后识别”
近年来,多模态模型如Grounding-DINO、SAM通过自然语言引导实现了细粒度视觉理解,但文本图像与自然图像存在本质差异:文本图像通常仅包含单个单词,缺乏丰富语义上下文,难以直接应用现有指令学习方案。针对这些问题,研究团队提出指令引导场景文本识别(IGTR)范式,核心思路是:通过学习字符属性(频率、位置、状态等)建立对文本的深层理解,而非单纯依赖视觉特征匹配。答案:第2个"的指令。:包含四个交叉注意力阶段,实现问题、条件与图像特征的深度交互,依次完成"查询-条件"和"查询-图像"的双向注意力计算。
2025-12-31 20:24:03
221
转载 知乎热议:穷人要不要读博?
当然,读博士,没有同龄人工作赚得多。我对此是感受很深的,每个月,先给国家贡献一波税收,再给房东贡献大几千的房租,还有公司食堂,这是我最气愤的地方:明明学校里只需要6毛6的米饭,这里要2块钱,明明学校里1块多的土豆丝,这里要8块钱,还特别难吃,原来在学校15块钱我两荤一素横着走,现在30块钱一荤一素还卑微成狗。大,但读书期间的所有努力,所有见闻,所有经历,以及最后的学位帽,都将化为你加速成长的强大助力,我们不说阶级跨越这种虚无渺茫的东西,但它至少可以让你在未来拥有更大的发展空间和更强大的议价能力。
2025-12-31 20:24:03
32
原创 TPAMI 2025 | 异常检测新范式:DiffusionAD 单步去噪 + 范数引导,兼顾实时性与细粒度重建
本文将深入解析顶会论文《DiffusionAD: Norm-guided One-step Denoising Diffusion for Anomaly Detection》提出的创新框架,该框架通过三大核心突破,在四个权威数据集上实现了性能与效率的双重超越。通过系统分析扩散模型的去噪过程,研究团队发现重要特性:当噪声尺度较小时(t≤400),单步去噪与迭代去噪的重建质量几乎一致(如图4所示)。图4:不同噪声尺度下,单步去噪与迭代去噪的MSE对比及视觉效果,验证了小尺度噪声下单步方法的有效性。
2025-12-30 20:45:40
939
转载 傅里叶变换杀回来了!搞定图像分割、降噪、跨域,顶刊思路赶紧跟上!
本文提出傅里叶级数目标检测(FSD),将目标的闭合轮廓曲线编码为一维周期傅里叶级数,并通过深度学习模型回归傅里叶系数,从而在推理阶段恢复目标的精细轮廓。其能够将图像从空域分解为频域分量,精准分离信号与噪声、结构与细节,为解决玻璃分割边界模糊、海洋雪噪声干扰、跨域分布偏移等传统难题提供了全新思路。第三个创新点:是特征编码与表示,将目标轮廓、降解模式等编码为傅里叶级数或频谱特征,实现更精准的目标描述与降解适配。第一个创新点:是频域-空域特征融合,如利用傅里叶变换增强边界特征、分离降解噪声,提升分割与恢复精度;
2025-12-30 20:45:40
34
原创 TPAMI 2025 | 多模块协同!CPPD:上下文感知并行解码,场景文本识别实现AR级精度与PD级速度双突破
针对上述问题,研究团队提出了上下文感知并行解码器(CPPD),通过两个核心模块——字符计数(CC)模块和字符排序(CO)模块,构建全面的识别上下文,从而在保持PD速度优势的同时,大幅提升识别精度。结果显示,无论是基于CNN的编码器(如ResNet45)还是基于Transformer的编码器(如ViT),CPPD都能带来显著的性能提升,证明了其良好的适应性和通用性。与传统PD解码器相比,CPPD的注意力热点更准确、更集中,能够更好地聚焦于字符区域,这与AR解码器的注意力分布更为接近,解释了其精度提升的原因。
2025-12-29 20:46:27
678
转载 AAAI 2026 | 港理工重磅提出 S-DAG:细粒度学科分解 + LLM 精准匹配,多领域推理登顶
今天要给大家介绍的这项研究,提出了一种全新的解决方案——基于主题的有向无环图(S-DAG)框架,让多个AI专家像科研团队一样分工协作,精准破解复杂多主题问题!就像图1展示的那样,现有方法要么让单个模型硬扛(左),要么让多个模型无序协作(中),而S-DAG则实现了主题级的精准分工(右)👇。这种结构化流程大幅减少了冗余计算,如图3所示,相比全连接的混乱通信(左),S-DAG(右)的推理效率提升显著👇。生成有向无环图(S-DAG),用箭头表示主题间的依赖关系(比如"数学"→"物理"表示数学知识支撑物理推理)
2025-12-29 20:46:27
27
原创 TPAMI 2025 | 北理团队提出MGProto:高斯分布原型+自适应剪枝,重构可解释图像识别范式
传统方法只关注图像中激活最强的区域(类似"上等马"),而MGProto同时挖掘次显著区域的信息("中等马"和"下等马"),通过设计针对性的损失函数,让次要区域的判别能力得到充分训练(图5)。以汽车数据集为分布内样本时,能将96.8%的CUB图像正确识别为分布外样本,远超PIP-Net的92.2%(表4)。保留重要性高的原型分量,移除冗余分量,在大幅压缩模型规模的同时保持性能(表6)。图6的T-SNE可视化显示,原型自然地分布在数据簇中心,重要性高的原型精准定位关键对象部位(如鸟的头部、翅膀)。
2025-12-28 19:00:49
313
转载 TGRS 2025 | 突破遥感超分极限!WaveDiffUR让×128放大成为可能
最近,来自TGRS 2025的一项研究彻底颠覆了遥感超分辨率技术,提出的WaveDiffUR模型居然能实现×128的极端放大,还能精准保留道路、植被等精细特征。就连最近很火的扩散模型,在超高放大倍数下也会"神志不清",把农田修成游泳池都是常有的事。WaveDiffUR的出现,把遥感超分从×4、×8的舒适区,一下子拉到了×128的新高度。更头疼的是,遥感图像里的混合像素和复杂地形,让"从模糊猜清晰"的过程变得像猜彩票——同一个低分辨率图可能对应无数种高分辨率解。左边是其他模型的结果,桥梁模糊成了毛毛虫;
2025-12-28 19:00:49
53
转载 ICCV 2025 | 福大Text-IRSTD:语义文本赋能红外小目标检测,复杂场景SOTA再突破!
在"NUDT-SIRST训练→NUAA-SIRST测试"的跨场景实验中,Text-IRSTD的IoU仍保持82.3%,远超对比方法的75.6%,证明其在未知场景中的稳健性。在NUDT-SIRST数据集上,Text-IRSTD的误报率低至1.032×10⁻⁶,同时检测概率高达99.73%,展现出强大的抗干扰能力。这种设计巧妙避开了"目标类别模糊"的问题,通过场景上下文建立文本-图像的稳健关联,帮助模型聚焦关键区域。:"[场景]背景中[感兴趣区域]目标的照片"(如"天地背景中天空目标的照片")
2025-12-28 19:00:49
35
转载 ICCV 2025 | 逆袭 MambaAD!Wave-MambaAD 以双状态空间架构,攻克异常检测两大核心难题
近期,一篇题为《Wave-MambaAD: Wavelet-driven State Space Model for Multi-class Unsupervised Anomaly Detection》的论文横空出世,创新性地将小波变换与状态空间模型结合,为多类别无监督异常检测难题提供了全新解决方案。如图1所示,传统MambaAD在细微异常(如药片表面划痕)和大规模异常(如电缆整体锈蚀)的检测中表现欠佳,而Wave-MambaAD则实现了精准识别。低频分量承载图像的全局结构信息,是检测大规模异常的关键。
2025-12-27 19:01:58
57
原创 TPAMI 2025 | 告别ResNet!UniMatch V2 以ViT新基线+互补Dropout突破半监督语义分割性能上限
实验表明,仅将编码器从ResNet-101替换为参数更少的DINOv2-S,即可在Pascal数据集实现3%的性能提升,Cityscapes数据集提升4%,揭示了编码器升级的巨大潜力。:实验发现DINOv2编码器对特征级增强的敏感性显著降低(特征级损失仅为图像级的1/6),因此将输入级强增强(颜色抖动、CutMix等)与特征级Dropout融合为单一流程。该设计在保持增强空间完整性的同时,大幅提升训练效率。与V1的随机双增强相比,该方法能生成更具判别性的双视图特征,增强模型对特征扰动的鲁棒性。
2025-12-26 20:22:01
824
原创 TPAMI 2025 | 多模态融合新突破:MC-WES框架破解微表情与宏表情定位任务树立新标杆
近期发表于TPAMI'25的研究《Weakly supervised Micro- and Macro-expression Spotting Based on Multi-level Consistency》提出了创新性的MC-WES框架,仅用视频级标签就能实现高精度定位,为该领域带来重要突破。MC-WES框架通过多层次一致性策略,成功弥合了模态、样本与任务间的差距,推动了弱监督表情定位技术的实用化进程。尤其在处理长视频中的稀疏微表情时,通过分布一致性策略,召回率提升了12-18%。
2025-12-25 19:03:27
820
Python视觉实战项目31讲.pdf
2020-10-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅