自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6942)
  • 资源 (2)
  • 收藏
  • 关注

原创 【荐读IEEE TPAMI】基于模型的强化学习与独立想象力

在基于视觉的交互系统中,世界模型学习行动的后果。然而,在实际场景中,如自动驾驶,存在不可控制的动态,这些动态独立于或与行动信号稀疏相关,这使得学习有效的世界模型变得具有挑战性。为了解决这个问题,我们提出了Iso-Dream++,这是一种基于模型的强化学习方法,具有两个主要贡献。首先,我们优化了逆动力学,鼓励世界模型从环境混合的时空变化中隔离出可控制的状态转换。其次,我们基于解耦的潜在想象进行策略优化,我们将不可控制的状态滚动到未来,并将其与当前可控制的状态自适应地关联起来。

2024-05-18 19:15:00 1389

原创 【荐读IEEE TPAMI】无监督去雨:非对称对比学习与自相似性相遇

大多数现有的基于学习的去雨方法都是在合成的雨-清洁对上进行有监督训练的。合成雨与真实雨之间的领域差距使它们在复杂的真实雨场景中的泛化能力降低。此外,现有方法主要独立利用图像或雨层的属性,很少有方法考虑它们之间的相互排斥关系。为了解决这一困境,我们探索了每层内部的内在自相似性以及两层之间的相互排斥性,并提出了一种无监督的非局部对比学习(NLCL)去雨方法。非局部自相似性图像块作为正样本被紧密地拉在一起,而雨块作为负样本则被显著地推开,反之亦然。

2024-05-13 12:24:06 1242

原创 TPAMI 2025 自协作 + 重增强,这款 GAN 框架让图像复原告别配对数据依赖

二是想要提升性能,要么大幅修改模型结构,要么增加推理阶段的计算量,难以兼顾效果与效率。这篇论文的核心贡献在于,跳出了“靠修改模型结构、增加推理成本提升性能”的传统思路,通过“自协作+再增强”的训练策略,让无监督GAN复原框架实现了“性能飙升+推理高效”的双赢。这两种约束的结合,让生成器能更全面地学习真实世界的退化分布——“非配对合成”从不同内容的退化图像中提取退化特征,“自合成”则基于相同内容图像强化退化特征学习,二者互补让生成的伪退化图像更贴近真实场景,为后续复原器训练打下坚实基础。

2026-04-16 20:58:55 141

原创 TPAMI 2025 | 清华 & NTU 联合攻关:掩码全局语义补全,视觉语言预训练全局 - 局部对齐登顶

对于普通用户来说,这意味着未来的AI能更精准地理解“图片+文字”“视频+文字”的组合信息:搜“海边日落”不再出现无关图片,问“视频里的人物在做什么”能得到精准回答,甚至刷视频时的推荐也会更贴合心意。这种“重局部、轻全局”的问题,直接导致模型的全局语义理解能力拉胯:明明是“海边日落”的全局语义,却匹配到了“路边小花”的局部特征;而对于科研和工业界来说,这篇论文的思路也提供了新方向:跨模态学习不该只盯着“局部修补”,更要兼顾全局语义的完整性,让模型真正“理解”多模态信息,而不是简单的“匹配”碎片。

2026-04-16 11:44:23 118

原创 CVPR 2026 | 解决 LUT 感受野瓶颈!ShiftLUT 轻量扩展感受野实现高效图像恢复

这一研究不仅为资源受限设备的高效图像恢复提供了新方案,也为基于LUT的轻量化模型设计提供了全新思路——通过精细化的模块设计和资源分配,而非简单堆叠网络,就能实现性能和效率的双赢。无论是超分辨率、去噪还是去块效应,ShiftLUT都在更小的存储、更快的推理速度下,实现了更高的恢复质量。近期,CVPR 2026的一篇研究论文提出了ShiftLUT框架,创新性地解决了这一痛点——在所有基于LUT的方法中实现了最大感受野,同时还能保持极致的存储和推理效率,为边缘设备的高效图像恢复带来了全新方案。

2026-04-15 19:07:44 362

原创 CVPR 2026 | MoECLIP 融合 MoE 与 PEFT:零样本异常检测 14 数据集霸榜 SOTA

路由器会根据输入图像块的特征,计算每个专家的路由分数,仅激活分数最高的2个专家(Top-2路由),再将这些专家的输出加权求和,得到该图像块的自适应特征。MoECLIP的核心创新,在于将“补丁级别自适应”引入零样本异常检测,通过MoE架构的动态路由+专家专业化机制,彻底打破了现有方法“统一处理所有图像块”的局限。为避免特征范数失配破坏CLIP的泛化能力,模型还对MoE输出做了归一化处理——匹配原始特征的L2范数,仅保留方向信息,再通过残差连接与原始特征融合,既保证训练稳定性,又不丢失CLIP的全局语义优势。

2026-04-15 19:07:44 455

原创 CVPR 2026 | 西交 & 港科大联合提出 CoIn3D:空间感知调制赋能多相机 3D 检测跨配置泛化

研究团队重新审视了相机配置对MC3D泛化性的影响,提出了一套通用框架CoIn3D,让模型能轻松适配不同的相机配置,在NuScenes、Waymo、Lyft三大主流数据集的跨配置测试中,性能实现了质的飞跃。地面是3D检测的重要参考,CoIn3D先通过地平面方程计算出每个像素对应的地面深度(图3(b)直观展示了不同相机高度下地面深度的变化差异),再通过地面梯度图描述深度的变化速率——这能让模型适应不同相机安装高度带来的透视差异,避免过拟合单一高度的透视规律。再渲染网格得到精确的深度图,补全孔洞后生成密集深度;

2026-04-14 19:02:30 486

原创 TPAMI 2025 | UISE 重磅来袭:动态卷积赋能通用图像分割全任务通吃

从语义分割、实例分割到全景分割,再到动态的视频实例分割,不同分割任务往往需要专用模型适配,要么牺牲精度追求速度,要么为了泛化性陷入模型臃肿的困境。更关键的是,UISE在训练时用IFA保证精度,推理时无缝重参数化为CFA,无需重新训练,就能实现2.6倍的速度提升,完美解决了特征聚合的效率瓶颈。从图中能直观看到,主干网络先提取图像的多尺度特征,再经由特征金字塔聚合器完成特征的高效聚合,最后通过可分离动态解码器生成通用分割核,最终完成各类分割任务的掩码与类别预测。这种方式虽能保证精度,但计算量巨大。

2026-04-14 19:02:30 524

原创 TPAMI 2025 | 即插即用 DK3D:无额外算力,大幅提升单目 3D 目标检测性能

该模块的核心是“注释前景物体级深度图(AFOD)”——仅保留前景目标的精准深度,避免背景噪声干扰,再通过交叉注意力和坐标嵌入,将深度线索与视觉语义特征融合,让教师生成带深度感知的指导特征,学生则从这些特征中隐式学习几何推理能力,无需显式估计深度。这也为纯视觉3D检测的落地,提供了新的技术路径。今天要分享的这篇TPAMI 2025的顶刊论文,提出了全新的深度感知知识蒸馏框架DK3D,直击跨模态蒸馏的痛点,无需额外数据、不增加推理成本,就能显著提升单目和多视图3D检测模型性能,堪称即插即用的性能增强神器!

2026-04-10 21:17:07 579

原创 TPAMI 2025 | 开放世界检测突破!SKDF:蒸馏大模型开放词汇知识,纯视觉检测器速度提升 115 倍

但对AI来说,这却是个大难题——传统目标检测器只能识别训练过的"已知目标",面对没见过的"未知目标",要么视而不见,要么直接"失忆",忘了怎么识别原本会的东西。和现有最优的OWOD检测器比(图6),SKDF能检测到更多潜在的未知目标:桌子上的书、泰迪熊,墙上的画框,这些被其他模型忽略的东西,SKDF都能精准识别为未知目标,还不会把已知目标认错。未来,随着这类方法的发展,我们的手机、监控、自动驾驶汽车里的目标检测器,会像人一样,既能认出熟悉的东西,又能发现陌生的事物,真正适应复杂的开放世界。

2026-04-10 21:17:07 495

原创 TPAMI 2026 | 语义先验也能匹配!RCM + 解锁人体关键点 目标检测框的特征对应

最后通过两阶段精匹配和亚像素细化,输出高精度的最终匹配结果。无论是几何先验(关键点、线条)还是语义先验(人体关键点、检测框),无论是室外大尺度变化场景,还是室内复杂纹理场景,RCM+都能凭借灵活的适配性、高效的匹配效率、高精度的匹配结果,展现出强大的应用潜力。编码器负责提取全局交互后的通用特征,无参数解码器则不依赖任何训练好的参数分布,这让RCM+能以“零样本”方式匹配任意输入位置——无论是关键点、线条、边缘、任意分辨率网格,甚至是人体关键点、检测框、用户手动点击的点,都能适配,真正实现“按需匹配”。

2026-04-09 19:01:42 516

原创 CVPR 2026 | 索尼 & IIIT Hyderabad 提出 EWOD 新范式!EW-DETR 革新动态世界目标检测

在自动驾驶、仓储机器人等真实场景中,目标检测器面临的从来都不是“一成不变”的环境——新的物体类别不断出现、场景从白天切换到雾天夜晚、从未见过的陌生物体需要被识别出来,更关键的是,受限于数据存储或隐私法规,模型还不能回头使用过去的训练数据。为了应对EWOD的多重挑战,研究团队提出了EW-DETR框架,它基于经典的DETR检测器,通过三个协同模块的设计,在无过往数据依赖的前提下,同时解决遗忘、领域偏移、未知检测三大问题。从研究角度来说,它为开放世界识别和领域自适应持续学习的交叉领域,提供了全新的思路和基准。

2026-04-09 19:01:42 525

原创 TPAMI 2025 | 可见光融合红外红外,实现医学/遥感场景全拿下!多模态制导图像融合新框架

在计算机视觉领域,图像融合始终是极具价值的研究方向——无论是军事侦察中可见光与红外图像的互补融合,还是医学诊断里不同模态影像的信息整合,亦或是遥感领域的全色锐化、高光谱与多光谱图像融合,优质的融合算法都能让合成图像更全面、精准地还原场景信息。先来看RWKVFusion的整体框架(图1),整个框架分为两大分支:融合分支(高效多模态网络)和语义分支(提供语言+掩码语义信息),输入不同模态图像后,结合语言描述T和掩码M的引导,最终输出高质量融合图像。

2026-04-07 21:09:00 642

原创 TPAMI 2025 | 南大新作:深度平衡模型,开启目标检测分割无限精修时代

近期,Shuai Wang、Yao Teng、Limin Wang等研究者提出的深度均衡解码器(DEQ-Decoder),为解决这些问题提供了全新思路——将查询细化建模为无限深度的固定点求解问题,不仅大幅提升参数效率,还在MS-COCO基准上实现了更快的收敛、更低的内存消耗和更优的性能。当迭代次数趋近于无穷大时,查询向量会收敛到稳定的均衡状态(固定点),无需依赖预设的细化步数,也无需存储反向传播的隐藏状态,内存效率和建模灵活性大幅提升。尤其在实例分割中,前序解码器层的参数训练后往往被丢弃,造成极大浪费。

2026-04-07 21:09:00 511

原创 TPAMI 2025 | 强化学习驱动自动选样,持续语义分割记忆利用再升级

首先把图像的语义区域拆分成多个超像素(每个超像素代表一个有意义的语义结构,比如鸟的头部、汽车的轮子),每个超像素对应图中的一个顶点,顶点特征是超像素内所有像素的平均骨干特征;但研究团队发现,即便是最优候选样本,其分数也未必理想,因此又增加了“样本增强”步骤:通过梯度更新的方式优化样本,提升其智能体分数,让这些样本在后续重放中发挥更大作用。最后用最优传输算法进行图匹配,得到的匹配成本就能精准反映两张图像的相似性——比如比较“人”类别的两个区域时,既能评估衣着的语义相似性,又能衡量身体姿态的空间相似性。

2026-04-06 20:36:42 520

原创 TPAMI 2025 | 全新 BIPNet 框架:自适应渐进上采样,让 burst 图像恢复实现质的飞跃

传统后期融合机制难以实现灵活的帧间信息交换,PBFF模块(图3(a))则另辟蹊径:将所有对齐后特征的对应通道拼接,通过卷积生成“伪突发特征”——每个伪突发特征图都包含所有原始帧的互补属性,相当于让每帧特征都“吸收”了其他帧的优势,实现充分的帧间信息交互。在灰度/彩色突发去噪任务中,BIPNet即便面对训练中未见过的高噪声水平(增益∝8),仍表现优异:灰度去噪比MFIR高0.91 dB,彩色去噪高0.58 dB(表4、表5),视觉上(图10)重建图像更干净,无残留噪点和模糊。

2026-04-06 20:36:42 503

原创 TPAMI 2025 | 北理团队新作 SFM:轻量易集成,分割模型即插即用提性能

这篇研究的核心价值,在于重新定义了语义分割中高频信息的处理方式:传统方法为避免混叠而“丢弃高频”,而SFM通过“调制-解调”的闭环,实现了“保护高频”的目标。:通过比率密度函数(RDF)分析特征频率(如图6),调制后的特征在奈奎斯特频率以上的高频功率显著降低,解调后的特征则几乎恢复到原始特征的高频分布,证明“调制-解调”的有效性。经过下采样和网络处理后,需要将低分辨率的调制特征恢复到原始尺寸,这一步就是解调,由MSAU模块完成(如图4),核心解决传统双线性上采样无法适配非均匀调制特征的问题。

2026-04-04 19:01:56 494

原创 TPAMI 2026 | 中港联合打造 PointLLM-V2:点云 - 语言对齐新范式,3D 理解全面突破

传统的2D图像理解方式,会受视角、遮挡、深度模糊的影响——比如一张桌子的照片,你没法准确判断它的高度和腿的数量。PointLLM-V2的出现,不仅刷新了3D点云理解的SOTA,更给行业指明了方向:把复杂的3D问题拆解成数据、架构、评估三个核心环节,逐一突破,就能让大模型真正读懂3D世界。不管前面的对话是正确的、错误的,还是无关的(比如问“你是谁”“写个冒泡排序”),PointLLM-V2的准确率几乎没波动,平均差距只有1.4%(表7)——这意味着它不会被无关信息干扰,能稳定响应3D相关指令。

2026-04-04 19:01:56 567

原创 TPAMI 2025 | 港城大团队新作:强化学习引导 ODE 轨迹,提升图像复原性能

近期,一篇发表于TPAMI 2025的研究论文,为基于微分方程的图像恢复方法带来了颠覆性突破,提出全新的轨迹优化范式,打造出统一的感知图像恢复模型FLUX-IR,在超分辨率、去噪、去模糊等7类任务上均达到领先水平。这意味着,无论是专业的工业场景,还是日常的图像修复需求,FLUX-IR都能提供高质量、高效率的解决方案。未来,随着该框架与更高效的网络结构、更丰富的数据集结合,基于微分方程的图像恢复方法有望在更多实际场景中发挥作用——从安防监控、医疗影像,到手机拍照、影视后期,让高质量的图像恢复触手可及。

2026-04-01 21:31:16 564

原创 TPAMI 2025 | 形变感知配准 + 特征交互融合,遥感目标检测精度效率双提升

这项研究的核心创新在于,打破了“均匀采样”的传统思维,针对遥感图像“背景多、目标少”的特点,提出任务驱动的混合高斯形变采样方法,并结合双分支框架实现特征的精准对齐与融合。不同输入分辨率、高斯核参数、密度网络输入尺寸的消融实验(见表5、表8、表9、表11),也进一步验证了方法设计的合理性——选择512×512的形变图像分辨率,能在精度损失仅0.03%的情况下,将推理速度提升至17.6 FPS,计算量减少40.55%。这样既保留了形变特征中丰富的目标激活信息,又校准了空间位置,确保回归任务的准确性。

2026-04-01 21:31:16 563

原创 TPAMI 2025|面向真实场景:CoDAv2 解决 3D 开放词汇检测长尾分布与背景干扰难题

它用“协同发现新物体+跨模态精准对齐”的思路,解决了传统3D检测“认不出新物体”的核心痛点,不仅在学术上刷新了性能基准,也为工业界落地更通用的3D检测系统提供了可行方案。未来,随着这类方法的发展,3D检测模型会像人类一样,既能认识已知的物体,也能通过学习不断“认识”新物体,真正实现从“有限词汇”到“开放词汇”的跨越。通过这两个线索的结合,模型在训练时能不断发现新物体的3D框,生成“伪标签”,相当于自己给自己“补课”,解决了新物体“定位难”的问题。找到新物体还不够,训练数据里新物体太少,模型学不扎实。

2026-03-31 19:45:01 557

原创 TPAMI 2026 | 自监督蒸馏 + 轻量门控:RGMR 高效过滤多模态无关上下文

近期,Jinhui Yang、Ming Jiang和Qi Zhao团队的研究登上顶会,不仅首次系统性定义了这个问题,还造出了能“测抗干扰能力”的IR-VQA基准、能“评稳定性”的新指标,甚至给模型装了个轻量级“过滤器”,让AI终于能像人一样,精准过滤干扰、稳定输出答案。未来,随着IR-VQA基准的普及和RGMR机制的优化,我们或许能看到更多“抗干扰”的大模型——它们不会被无关图片带偏,不会被冗余文字搅乱,能像人一样,在复杂的现实世界里,保持清晰的思路,稳定输出靠谱的答案。这,才是AI走向实用的关键一步。

2026-03-31 19:45:01 519

原创 TPAMI 2026 | 雨雾噪模糊全搞定!CPL 框架让图像复原告别单一任务限制

CPL框架的核心贡献在于:首次清晰诊断并解决了一体化图像复原中提示的“表示冗余”和“功能错位”问题,通过稀疏提示模块增强提示的任务特异性,通过对比提示正则化实现提示与复原任务的功能对齐。实验数据验证了SPM的效果(对应图4):CPL框架下,去雨、去雾、不同噪声水平的提示概率分布高度集中,比如去雾提示的激活概率达0.97,说明提示的任务特异性显著提升,熵值大幅降低。针对上述问题,CPL框架提出两大核心模块——稀疏提示模块(SPM)和对比提示正则化(CPR),从根本上增强提示与任务的对齐性。

2026-03-30 19:01:42 576

原创 CVPR 2026 | 全架构通吃!MatchED 插件式模块,CNN/Transformer/扩散模型都能无缝集成

这款轻量级即插即用模块,仅增加约21K参数,就能集成到任意边缘检测模型中,通过创新的匹配式监督策略,让模型直接输出单像素宽的清晰边缘图,无需任何后处理,还能将基线模型的平均清晰度提升2-4倍,核心指标ODS最高涨35%!具体集成方式十分简单:现有边缘检测模型输出的原始边缘图作为MatchED的输入,两者联合训练。MatchED的核心思路,是把「后处理修边缘」的被动方式,换成「训练时精准对齐边缘」的主动策略——通过在预测边缘和真实标注之间建立一对一的匹配关系,让模型从根源上学会生成清晰、精准的边缘。

2026-03-30 19:01:42 490

原创 CVPR 2026 | 解决推理分割推理发散难题!DPAD 以判别感知实现精准目标区分

为了验证DPAD的效果,作者做了大量实验,不仅用了ReasonSeg这个核心基准,还在RefCOCO、RefCOCO+、RefCOCOg等数据集上测试零样本泛化能力,硬件和训练设置也足够轻量化——仅用RefCOCOg的3000个样本训练,批次大小16,初始学习率1e-6。DPAD的核心思路,是在强化学习框架中加入「判别性感知奖励」,强制模型生成聚焦目标的推理链。从图3的直观对比能看到,基线模型的推理链充斥着无关的全局场景描述、冗余的自我确认,而DPAD的推理链只聚焦目标的核心属性,简洁又精准。

2026-03-29 21:35:23 551

原创 TPAMI 2026 | 线性复杂度全局建模!ATD-U 多尺度变体攻克图像去噪与 JPEG 去伪影难题

先来看ATD的整体架构(图2),无论是面向超分辨率的ATD基础版,还是面向去噪/去块的ATD-U(U-Net变体),都遵循"浅层特征提取-深层特征提取-图像重建"三阶段设计,核心亮点集中在深层特征提取的ATD Transformer层,包含令牌字典交叉注意力(TDCA)、自适应类别化多头自注意力(AC-MSA)、类别感知前馈网络(CFFN)三大核心模块,且全程保持线性计算复杂度。局部窗口注意力:把注意力限制在小窗口内,虽降低计算量,却只能捕捉局部特征,面对复杂纹理、重复结构的图像,无法利用全局相似信息;

2026-03-29 21:35:23 569

原创 CVPR 2026 | 首个专属基准!FLIR-IISR 真实红外数据集 + 自回归框架,实现超分新突破

尽管Real-IISR参数量(1144.6M)略大,但在单张A800 GPU上的推理速度达到2.45 FPS,是所有对比方法中最快的——基于扩散的方法因多步去噪速度慢,而Real-IISR的自回归架构实现了确定性生成,兼顾了性能和效率。在FLIR-IISR数据集的基础上,研究团队提出了Real-IISR统一自回归框架,核心是通过三个关键模块,解决红外超分中热辐射与结构失配、复杂退化下纹理失真、热分布物理不一致的问题。传统的离散码本是静态的,容易出现代码选择偏差,导致纹理平滑、结构保真度下降。

2026-03-27 21:07:41 367

原创 CVPR 2026 | 多光谱卫星数据的终极进化:UALNet 实现光谱 - 空间双超分,领跑遥感重构

因此,将哨兵-2数据重建为AVIRIS级高光谱图像,成为实现全球高光谱覆盖的关键突破口。次优的MST++需要56.65M参数、804G MACs,而UALNet仅需1.78M参数(3%)、120G MACs(15%),却在PSNR、SSIM、SAM、RMSE等核心指标上全面领先——既保证了空间重建的清晰度,又兼顾了光谱的保真度。对真实哨兵-2数据的案例研究表明,UALNet不仅能完成高质量的空间分辨率统一,重建的高光谱图像通过解混评估得到的丰度图也验证了其光谱结构的可靠性,为实际遥感应用奠定了基础。

2026-03-27 21:07:41 279

原创 TPAMI 2026 | 显著与伪装检测的通用解!VSCode-v2 凭动态提示实现全域性能提升

研究团队在SOD/COD的全模态基准数据集上开展实验,包括RGB SOD(DUTS、ECSSD等6个)、RGB-D SOD(NJUD、NLPR等6个)、RGB-T SOD(VT821等3个)、VSOD(DAVIS等6个)、RGB COD(COD10K等3个)、VCOD(CAD等2个),采用结构度量(S_m)、最大增强对齐度量(E_m)、最大F-measure(F_m)作为核心评估指标。最终的提示由这些高相关专家的输出加权求和得到,实现了“一张图一套专属提示”,大幅提升模型的自适应能力。

2026-03-26 19:48:44 477

转载 TGRS 2026 浙大提出 ICAD-UIE:通道间衰减差解水模型,实现保自然度水下图像增强

没有依赖复杂的深度学习网络,而是从水下光传播的物理特性出发,用ICAD矩阵精准捕捉通道衰减差异,再通过定制化去水模型和多色彩空间融合,既解决了色偏模糊问题,又保住了画面的自然感。更难得的是,它兼顾了实时性和鲁棒性,在不同水色、不同能见度的水下场景中都能稳定发挥,嵌入式平台的高帧率表现也让它有了落地应用的底气。水下图像增强的核心,从来不是简单的“调亮调艳”,而是在还原真实场景的基础上提升视觉质量。从图中能看到,融合后的图像在HSL三个通道的分布更均匀,过度增强的区域被有效修正,画面自然感拉满。

2026-03-26 19:48:44 30

原创 CVPR 2026 | 图像去雨新范式!UniRain 融合 RAG 与多目标优化,实现多退化类型统一修复

把查询图像、检索到的真实参考样本,结合预设的提示模板输入到三个不同的视觉语言模型(InternVL2.5-8B、LLaVA-NeXT-7B、MobileVLM-3B)中,通过“集成投票”的方式判断查询图像是否可靠:只要至少两个模型判定为“可靠”,该样本就会被保留。这个研究不仅为图像去雨提供了全新的统一解决方案,也为其他多类型、多场景的计算机视觉任务提供了参考思路——比如多场景的图像去雾、去雪,或是多类型的目标检测,都可以借鉴“数据精馏+自适应优化”的组合策略。

2026-03-25 19:02:42 585

转载 博士延毕,导师连坐,这项新规一出,网友直呼早该这样了,治标又治本 !

无论这把“最狠连坐”的手术刀最终能否根治顽疾,它都已刺破了一个脓包,迫使整个学术界正视并反思:博士生培养的核心,究竟是完成科研项目,还是成就学生的学术生命?例如,北京理工大学对于超基本学制(即超期)的博士生,会进行A、B、C类严格分级管理,并控制延期申请的比例。外界对这项“最狠连坐”新政的反应是复杂的。” 新政能否精准区分“导师责任”与“学生自身原因”,避免“一刀切”误伤,仍有待观察。对于前者,学院将逐年加大考核力度,考核结果持续位于末位的学生,将面临被“建议转为硕士培养”或“建议退学”的风险。

2026-03-25 19:02:42 39

原创 TPAMI 2026 | 中科大重磅提出贝叶斯窗口 Transformer:图像复原的 Transformer 新范式

这篇论文的核心贡献,是首次将贝叶斯概率思想引入Transformer的窗口机制,用随机窗口策略解决了固定窗口的平移不变性破坏和局部关系丢失问题,同时通过层期望传播和蒙特卡洛平均实现高效推理。比如一张有雨痕的图片,雨痕出现在不同位置时,固定窗口模型的复原效果会差异显著,这显然不符合实际应用需求。在添加移动高斯噪声块的均匀图像上测试(图7),固定窗口Transformer的PSNR分布波动极大,而贝叶斯窗口Transformer的分布近乎平坦,与CNN模型VDN的表现接近,证明其有效恢复了平移不变性。

2026-03-24 19:13:25 374

转载 RK3576 + ROS2 Humble 实战全攻略: SLAM 建图、Nav2 导航与实体机器人部署

而Nav2作为ROS2的官方导航框架,继承了ROS1 Navigation Stack的优点并进行了完全的重构,支持行为树、更灵活的插件化架构和更好的实时性保障。值越小,节点越多,地图细节越丰富,但计算量也越大。对于大场景,可以适当增大。全程手把手步骤,从装系统、配环境,到 URDF 建模、Gazebo 仿真,再到用 SLAM Toolbox 建图、Nav2 自主导航,地图服务器、AMCL、代价地图(全局/局部)、规划器(Planner)、控制器(DWB)、行为树导航器(BT Navigator)。

2026-03-24 19:13:25 38

原创 TPAMI 2025 | SDNet-A 融合注意力与多尺度对比特征编码,实现轻量级显著目标检测精度突破

近期,Zhuo Su等学者提出的SDNet/STDNet模型,凭借像素差分卷积(PDC)和差分卷积重参数化(DCR)等核心创新,在参数量不足1M的前提下,实现了图像/视频显著目标检测的极致效率与精度平衡:在Jetson AGX Orin嵌入式设备上,图像检测速度达46 FPS,视频检测更是突破150 FPS,远超同类轻量模型,同时保持顶尖检测精度。此外,STDC还借鉴了LBP-TOP的设计思想,但相比传统LBP-TOP的固定规则,STDC的核权重可从数据中学习,能自适应捕捉视频中的动态显著特征(见图7)。

2026-03-23 19:01:07 563

原创 TPAMI 2025 | 双分支注意力新设计:AST-v2 让图像复原告别无关区域噪声交互

从模糊的老照片修复,到去除雨天、雾天、雪天给图像带来的退化,再到低光环境下的图像增强,如何从受损的图像中精准恢复出清晰、真实的画面,不仅考验算法的性能,也对计算效率提出了高要求。更重要的是,复原后的图像还能提升下游任务(目标检测、语义分割)的性能,比如在ExDark低光检测数据集上,各类目标的检测AP均有显著提升。密集注意力机制的“噪声干扰”:传统Transformer的全注意力(DSA)会计算所有标记间的关联,极易引入无关区域的噪声交互,比如把图像中干净区域的纹理误判为雨线,反而破坏复原效果;

2026-03-22 19:02:03 553

转载 17岁高中生一作发表CVPR 2026

截至2025年,丘成桐中学科学奖历经18年发展,赛事覆盖海内外2000余所中学,累计参赛队伍超1.2万支,覆盖国内30余个省区市及海外多国,超半数获奖者升入清华、北大、哈佛、MIT等全球顶尖高校,该奖项已成为培养未来科技领军人才的重要摇篮。刘利刚教授和蔡有城博士后用行动证明,高中生也能做出世界级的研究——只要他怀揣“发自内心的热爱”,只要他愿意完成从“解题者”到“出题者”的蜕变。刘教授强调:“研究生不再以GPA为目标,更注重问题的发现与总结,总结的过程要有‘点线面’的过程,从零星的经验逐渐扩展成知识体系。

2026-03-21 21:02:47 49

原创 TPAMI 2026 | 腾讯 & 上海 AI Lab 联合出品 HAT:融合通道与窗口注意力,激活图像复原更多像素

近年来,Transformer凭借强大的表征能力在图像复原任务中崭露头角,但现有基于Transformer的方法(如SwinIR)仍存在两大核心痛点:一是利用输入信息的空间范围有限,二是跨窗口信息交互不足导致中间特征出现块状伪影。,通过创新的注意力机制设计和高效的预训练策略,不仅激活了更多输入像素用于高质量重建,还在经典超分辨率、真实世界超分辨率、图像去噪、JPEG压缩伪影减少等多个图像复原任务上达到SOTA,甚至大幅提升了超分辨率任务的性能上限。(a)(b)分别为超分辨率/等分辨率复原任务的网络结构;

2026-03-21 21:02:47 348

原创 TPAMI 2026 | 武大 Mask-DiFuser:掩码扩散赋能,多模态图像融合实现无监督统一

该研究将掩码图像建模与扩散模型巧妙结合,把无监督图像融合转化为自监督的双掩码图像重建任务,打造出无需微调即可适配多场景的通用融合模型,在红外-可见光、医学、多曝光、多焦点等融合任务中全面超越现有方法。而Mask-DiFuser的核心思路是:所有图像融合任务,本质上都是要生成符合人类视觉感知的高质量图像——清晰的纹理、适宜的曝光、自然的色彩,这一目标可作为多场景融合的统一标准,而掩码图像建模(MIM)+扩散模型的组合,恰好能绕开“无真实标签”的壁垒。

2026-03-20 19:01:44 337

转载 深度测评:2026年YOLO计算机视觉模型横评!目标检测哪家强?

YOLO12-L 以55.8%的mAP暂列第一,但YOLOv10-L以更小的参数量(24.2M vs 42.0M)达到54.5%,性价比更高。《从 0 入门人工智能学习攻略手册》文档,包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源,可以下载离线学习。请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别。

2026-03-20 19:01:44 169

Python视觉实战项目31讲.pdf

本手册中主要涉及以下几部分,首先是对 OpenCV中自带的基本函数进行介绍。其次是OpenCV的实战项目,一方面是基于实际项目利用OpenCV实现特定对象的检测,例如车道线检测、路面的坑洼检测、等;另一方面是基于OpenCV实现图像增强,例如利用OpenCV消除运动所引起的图像模糊等。最后是OpenCV与深度学习等其他相结合实现图像分割、人脸检测、运动检测等难度较大的问题。

2020-10-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除