
计算机顶会顶刊论文解读
文章平均质量分 94
解读计算机CCF-A顶会的论文,包括CVPR,ICCV,ECCV,NIPS,AAAI,ICLR,ICML等
优惠券已抵扣
余额抵扣
还需支付
¥79.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
小白学视觉
跟着小白一起学视觉
展开
-
TVT 2024 | HCLT-YOLO:一种用于复杂交通场景目标检测的卷积神经网络与轻量级 Transformer 混合架构
在交通场景中快速准确地检测交通标志是自动驾驶系统环境感知技术的关键环节。交通标志提供重要的道路信息和规则指令,对保障道路安全至关重要。本文提出HCLT-YOLO模型,以应对复杂交通环境中误报和漏检的挑战。具体而言,作者提出了一种新颖的卷积神经网络(CNN)与Transformer混合网络架构,能有效整合局部和全局特征,从而提升交通标志特征表示能力。为进一步增强模型对小交通标志的敏感度,作者通过上采样引入专门的小目标检测层来优化结构,并利用SIoU提升检测精度和计算效率。原创 2025-04-28 09:30:00 · 13 阅读 · 0 评论 -
CVPR 2025 | 解决广义类别发现中的灾难性遗忘问题
广义类别发现(Generalized Category Discovery, GCD)旨在识别未标记数据集中已知类别和新类别,为图像识别提供了更符合现实的场景。本质上,GCD需要彻底记住已有模式,才能识别新类别。近期最先进的方法SimGCD通过无偏学习,将已知类数据的知识转移到新类别的学习中。然而,在适应过程中,一些模式会被灾难性遗忘,从而导致新类别分类性能不佳。原创 2025-04-28 09:30:00 · 116 阅读 · 0 评论 -
AAAI 2025 | 用于离线元强化学习的熵正则化任务表示学习
离线元强化学习旨在通过在一组不同任务的数据上进行训练,使智能体具备快速适应新任务的能力。基于上下文的方法利用状态 - 动作 - 奖励转换的历史(称为上下文)来推断当前任务的表示,然后根据任务表示对智能体(即策略和价值函数)进行条件设定。直观地说,任务表示对潜在任务的捕捉越好,智能体对新任务的泛化能力就越强。不幸的是,基于上下文的方法存在分布不匹配的问题,因为离线数据中的上下文与测试时的上下文不匹配,这限制了它们对测试任务的泛化能力,导致任务表示过度拟合离线训练数据。原创 2025-04-27 09:30:00 · 14 阅读 · 0 评论 -
Arxiv 2024 | 用于单图像去雨的自适应频率增强网络
图像去雨旨在提高在雨天条件下受损图像的可见性,目标是去除诸如雨线、雨滴和雨积累等退化元素。尽管许多单图像去雨方法在空间域中的图像增强方面显示出有希望的结果,但现实世界中的雨退化通常会导致图像整个频谱的不均匀损坏,这对这些方法在不同频率分量上的增强提出了挑战。本文提出了一种新颖的端到端自适应频率增强网络(AFENet),专门用于单图像去雨,能够自适应地增强不同频率的图像。原创 2025-04-27 09:30:00 · 18 阅读 · 0 评论 -
TIM 2025 | 用于图像超分辨率的视觉状态空间模型
近年来,Transformer和卷积神经网络(CNN)在低层视觉任务中,尤其是图像超分辨率(SR)领域,受到了广泛关注。然而,CNN受限于其局部特征提取能力,而Transformer则因注意力计算的二次复杂度而面临挑战。为了有效解决这些问题,作者提出了一种密集残差连接的Mamba模型(DRCM)用于SR。DRCM通过利用全局感受野和动态加权机制,克服了CNN的局限性,并提供了类似于Transformer的高级建模能力。原创 2025-04-26 09:30:00 · 18 阅读 · 0 评论 -
TRGS 2024 | 用于部分方位角合成孔径雷达非合作目标识别的对比特征解缠方法
深度学习算法在合成孔径雷达(SAR)自动目标识别(ATR)任务中取得了最先进的进展。理论上,它们假设训练样本和测试样本是独立同分布的,以实现泛化,但这在实际的ATR场景中很难实现。在本文中,作者提出了一种新颖的对比特征解缠框架ConFeDent,旨在在分布一致性较弱的条件下学习具有更好泛化性能的特征。具体来说,ConFeDent旨在描述任意两个SAR训练样本之间的语义交互,而不是将它们独立对待。它可以通过半参数几何变换模型和二阶能量模型,从整个样本中隐式地解缠编码姿态和身份信息的特征。特别地,除了身份标签,原创 2025-04-26 09:30:00 · 9 阅读 · 0 评论 -
TIM 2025 | 用于低剂量CT去噪的自监督解耦卷积神经网络
低剂量计算机断层扫描(LDCT)减少了辐射暴露,但存在高噪声问题,影响图像质量和诊断准确性。尽管监督学习有助于解决这一问题,但其需要大量的LDCT和正常剂量CT(NDCT)图像配对数据集,这限制了其临床应用。本文提出了一种新颖的自监督解耦卷积神经网络(SDCNN),能够直接从LDCT数据中重建高质量CT图像,而无需干净的参考图像。与其他将噪声视为单一实体的方法不同,SDCNN将LDCT图像解耦为无噪声图像、信号相关噪声和信号无关噪声,符合低剂量噪声生成的内在原理。为了增强解耦的纯度,作者引入了组合和再解耦的原创 2025-04-25 09:30:00 · 139 阅读 · 0 评论 -
Arxiv 2024 | 解决域差异问题:一种双分支协作的无监督去雾模型
尽管合成数据可以缓解图像去雾任务中的数据获取难题,但在处理小规模数据时,它也引入了域偏差问题。本文提出了一种新颖的双分支协作无配对去雾模型(DCM-dehaze)来解决这一问题。该方法包括两个协作分支:去雾分支和轮廓约束分支。具体来说,作者设计了一个双深度可分离卷积模块(DDSCM),以增强深层特征的信息表达能力及其与浅层特征的相关性。此外,作者构建了一个双向轮廓函数来优化图像的边缘特征,以增强图像细节的清晰度和保真度。原创 2025-04-25 09:30:00 · 30 阅读 · 0 评论 -
TIM 2025 | 基于稀疏表示和自适应双通道PCNN模型的红外与可见光图像融合——基于共现分析剪切波变换
图像融合的原理是将异构图像中的互补信息进行整合,以获得更符合人眼视觉效果的融合图像。然而,大多数分解方法无法区分图像中的纹理和边缘,容易在边缘周围产生光晕伪影。本文提出了一种新的图像分解策略——共现分析剪切波变换(CAST),根据共现统计信息对输入图像进行预处理,生成基础层和细节层分量。为了提高基础层的稀疏性,引入了测量域中的分类稀疏字典,以增强对错误配准的鲁棒性。原创 2025-04-24 09:30:00 · 35 阅读 · 0 评论 -
AAAI 2024 | 结构化剪枝通过空间感知信息冗余进行语义分割
近年来,语义分割在各种应用中蓬勃发展。然而,高计算成本仍然是阻碍其进一步应用的主要挑战。滤波器剪枝方法为结构化网络瘦身提供了一种直接且有效的解决方案,用于减少分割网络的计算成本。然而,作者认为大多数现有的剪枝方法最初是为图像分类设计的,忽略了分割是一个位置敏感任务的事实,这导致它们在应用于分割网络时性能不佳。原创 2025-04-24 09:30:00 · 16 阅读 · 0 评论 -
TIP 2025 | ESOD:高分辨率图像上的高效小目标检测
放大输入图像是提升小目标检测的一种直接且有效的方法。然而,简单的图像放大在计算和GPU内存上都十分昂贵。实际上,小目标通常是稀疏分布且局部聚集的。因此,大量的特征提取计算被浪费在图像的非目标背景区域上。最近的工作尝试通过额外的网络挑选出包含目标的区域并进行常规的目标检测,但新引入的计算限制了它们的最终性能。本文提出重用检测器的主干网络来进行特征级的目标搜索和切片,从而避免冗余的特征提取并降低计算成本。结合稀疏检测头,作者能够在高分辨率输入(例如1080P或更大)上检测小目标,并获得卓越的性能。原创 2025-04-23 09:30:00 · 297 阅读 · 0 评论 -
AAAI 2024 | 通过边界增强的Patch-Merging Transformer实现超高分辨率分割
超高分辨率(UHR)图像的分割是一项关键任务,具有广泛的应用,但由于高空间分辨率和丰富的细节,带来了显著的挑战。最近的方法采用双分支架构,其中全局分支学习长距离上下文信息,局部分支捕捉细节。然而,这些方法在处理全局和局部信息之间的冲突时表现不佳,并且增加了额外的计算成本。受人类视觉系统能够快速将注意力集中在重要区域并过滤掉无关信息的启发,作者提出了一种新的UHR分割方法,称为边界增强的Patch-Merging Transformer(BPT)。BPT由两个关键组件组成:(1)原创 2025-04-23 09:30:00 · 16 阅读 · 0 评论 -
TCSVT 2025 | 实现整体夜间可见度提升:融合不规则光晕去除与光晕感知增强
当前的低光图像增强(LLIE)技术确实能够提升亮度,但对于夜间可见度的另一个有害因素——现实世界中多种形状的光晕效应,其研究较为有限。由于人造光源广泛存在,光晕的出现不可避免,而直接增强图像可能会导致光晕进一步扩散。为实现整体夜间可见度增强(ONVE),作者提出了一种基于物理模型引导的框架ONVE,推导出了具有近场光源的夜间成像模型(NIMNLS),其大气点扩散函数(APSF)先验生成器在六类光晕形状上得到了有效验证。原创 2025-04-22 09:30:00 · 308 阅读 · 0 评论 -
IJCV 2024 | HybridPrompt:用于跨域少样本学习的域感知提示方法
跨域少样本学习(CD-FSL)旨在利用少量有标签样本,识别与源域训练类别差异巨大的目标域中未见类别。然而,目标域和源域之间的显著差异给少样本泛化带来了巨大挑战。为解决域差异问题,作者提出HybridPrompt,这是一种新颖的域感知提示架构,将多种跨域学习提示整合为CD-FSL的知识专家。该方法具有多个优点。首先,为编码来自不同源域的知识,引入多个域提示以捕获特定域知识。随后,为促进有价值知识的跨域转移,通过基于域属性检索高度相关的域提示,为每个目标任务定制转移提示。原创 2025-04-22 09:30:00 · 19 阅读 · 0 评论 -
AAAI 2025 | OmniCount:基于语义 - 几何先验的多标签目标计数
目标计数对于理解场景的构成至关重要。以前,这项任务主要由特定类别的方法主导,这些方法逐渐发展为更具适应性的类别无关策略。然而,这些策略也有其自身的局限性,比如需要手动输入示例,对多个类别进行多次处理,导致效率低下。本文介绍了一种更实用的方法,该方法使用开放词汇框架,能够同时对多个目标类别进行计数。作者的解决方案OmniCount很突出,它利用预训练模型的语义和几何先验知识,无需额外训练,就能对用户指定的多个类别的目标进行计数。原创 2025-04-22 09:30:00 · 144 阅读 · 0 评论 -
CVPR 2025 | 学习型图像压缩中的平衡率失真优化
基于深度学习架构的学习型图像压缩(LIC)取得了显著进展,但标准的率失真(R-D)优化常因率和失真目标的梯度差异而出现更新不均衡的问题。这种不均衡会导致优化效果不佳,使得某一目标占据主导,从而降低整体压缩效率。为应对这一挑战,作者将R-D优化重新表述为一个多目标优化(MOO)问题,并引入两种平衡的R-D优化策略,自适应地调整梯度更新,以在率和失真两方面实现更均衡的改进。第一种策略沿着标准的RD优化轨迹采用从粗到细的梯度下降方法,特别适合从头开始训练LIC模型。第二种策略将重新表述的优化问题解析为一个带等式约原创 2025-04-21 11:43:03 · 127 阅读 · 0 评论 -
TIP 2024 | 基于深度随机自适应傅里叶分解网络的高光谱图像分类
基于深度学习的高光谱图像(HSI)分类方法近年来表现出色,但仍存在两个需要解决的问题。一是深度网络训练需要大量标注图像,二是深度网络需要学习大量参数。这两个问题是深度网络的普遍问题,尤其是在需要专业技术获取和标注图像的应用中,如高光谱图像和医学图像。本文提出了一种基于随机自适应傅里叶分解(SAFD)理论的深度网络架构(SAFDNet)。SAFD具有强大的无监督特征提取能力,因此整个深度网络仅需要少量标注图像来训练分类器。此外,作者在整个深度网络中使用了较少的卷积核,大大减少了深度网络的参数数量。SAFD是一原创 2025-04-21 11:42:02 · 35 阅读 · 0 评论 -
TIP 2025 | MISC:基于大型多模态模型的超低比特率图像语义压缩
随着存储和通信协议的演进,超低比特率图像压缩已成为一个高度需求的研究课题。然而,现有的压缩算法在超低比特率下必须在与真实图像的一致性或感知质量之间做出牺牲。近年来,大型多模态模型(LMM)的快速发展使得平衡这两个目标成为可能。为了解决这一问题,本文提出了一种称为多模态图像语义压缩(MISC)的方法,该方法包括一个用于提取图像语义信息的LMM编码器、一个用于定位语义对应区域的地图编码器、一个生成极压缩比特流的图像编码器,以及一个基于上述信息重建图像的解码器。原创 2025-04-19 09:30:00 · 36 阅读 · 0 评论 -
TIP 2024 | 基于双流复值卷积网络的真实去雾图像质量评估
有效评估去雾图像的感知质量仍然是一个未被充分探索的研究问题。本文提出了一种无参考的复值卷积神经网络(CV-CNN)模型,用于自动评估去雾图像的质量。具体而言,作者采用了一种新颖的CV-CNN模型,利用复值表示的优势,在感知特征学习上比实值模型具有更好的泛化能力。为了学习更具判别性的特征来分析去雾图像的感知质量,作者设计了一种双流CV-CNN架构。该双流模型包括一个对去雾RGB图像操作的失真敏感流和一个对新型暗通道差异图像操作的雾感知流。失真敏感流负责感知失真伪影,而雾感知流则处理可能存在的残留雾。原创 2025-04-19 09:30:00 · 27 阅读 · 0 评论 -
IJCV 2024 | 用于高分辨率高光谱计算成像的低秩 Transformer
空间光谱融合旨在通过融合低分辨率高光谱图像(LR-HSI)和高分辨率多光谱图像(MSI)来获得高分辨率高光谱图像(HR-HSI)。近年来,许多基于卷积神经网络(CNN)的方法取得了优异的成果。然而,这些方法仅考虑了局部上下文信息,限制了融合性能。尽管一些基于Transformer的方法克服了这个问题,但它们忽略了HR-HSI的一些内在特征,如空间低秩特征,导致参数规模大、计算成本高。为了解决这些问题,作者提出了一种用于空间光谱融合的低秩Transformer网络(LRTN)。原创 2025-04-18 09:30:00 · 98 阅读 · 0 评论 -
IJCV 2024 | SRConvNet:一种用于轻量级图像超分辨率的 Transformer 风格卷积网络
近年来,视觉Transformer在包括单图像超分辨率(SISR)在内的各种任务中展现出相较于卷积神经网络(ConvNet)的优势。Transformer的成功归因于不可或缺的多头自注意力(MHSA)机制,它能够以较少的参数有效地建模全局连接性。然而,MHSA的二次复杂度通常会带来巨大的计算成本和内存资源占用,与广泛使用的轻量级ConvNet相比,限制了其在移动设备上的高效部署。原创 2025-04-18 09:30:00 · 21 阅读 · 0 评论 -
Arxiv 2024 | 基于一致性伪标签和协作展开网络的真实世界图像去雾
真实世界图像去雾(RID)旨在减轻真实场景中雾霾引起的图像退化。由于真实雾霾分布的复杂性以及缺乏配对的真实世界数据,这一任务仍然具有挑战性。为了解决这些挑战,作者首先引入了一种协作展开网络,联合建模大气散射和图像场景,有效地将物理知识整合到深度网络中,以恢复雾霾污染的细节。此外,作者提出了首个面向RID的迭代均值教师框架,称为基于一致性的标签生成器(Colabator),用于生成高质量的伪标签以进行网络训练。原创 2025-04-17 09:30:00 · 19 阅读 · 0 评论 -
ACM MM 2024 | 无配对照片级真实感图像去雨的能量引导扩散模型
现有的无配对图像去雨方法在准确捕捉雨天图像和干净图像之间的区别特征方面面临挑战,导致重建图像中存在残留降质和颜色失真。为此,作者提出了一种用于无配对照片级真实感图像去雨的能量引导扩散模型(UPID-EDM)。首先,作者深入研究了对比语言-图像预训练模型(CLIP)中嵌入的复杂视觉语言先验,并证明这些CLIP先验有助于区分雨天图像和干净图像。此外,作者引入了一个双一致性能量函数(DEF),该函数在保留与雨无关的特征的同时消除了与雨相关的特征。该能量函数通过非对应的雨天和干净图像进行训练。原创 2025-04-17 09:30:00 · 22 阅读 · 0 评论 -
CVPR 2025 | 用于开放集监督异常检测的分布原型扩散学习
在开放集监督异常检测(OSAD)中,现有方法通常生成伪异常样本以弥补观测到的异常样本的不足,但却忽略了正常样本的关键先验信息,导致判别边界的有效性较低。为解决这一问题,作者提出了一种分布原型扩散学习(DPDL)方法,旨在将正常样本包含在一个紧凑且具有判别力的分布空间内。具体而言,作者构建了多个可学习的高斯原型,为丰富多样的正常样本创建潜在表示空间,并学习一个薛定谔桥,以促进正常样本向这些原型进行扩散转移,同时使异常样本远离。此外,为增强样本间的分离度,作者在超球面空间中设计了一种分散特征学习方法,这有助于识原创 2025-04-16 09:30:00 · 157 阅读 · 0 评论 -
AAAI 2024 | 基于双重概率对齐的通用域适应目标检测
域适应目标检测(DAOD)在封闭集假设下,将知识从有标签的源域转移到无标签的目标域。通用域适应目标检测(UniDAOD)扩展了DAOD,以处理开放集、部分集和封闭集域适应。本文首先揭示了两个问题:域私有类别的对齐对于全局特征至关重要,不同层次的特征域概率异质性。为了解决这些问题,作者提出了一个新的双重概率对齐(DPA)框架,将域概率建模为高斯分布,从而实现异质域分布的采样和测量。DPA由三个定制模块组成:全局级域私有对齐(GDPA)、实例级域共享对齐(IDSA)和私有类别约束(PCC)。原创 2025-04-16 09:30:00 · 22 阅读 · 0 评论 -
Arxiv 2024 | 基于频率增强状态空间模型的图像去雨
去除图像中的雨退化是一个重要的问题。在这一领域,基于深度学习的方法,如卷积神经网络(CNN)和Transformer,已经取得了成功。最近,状态空间模型(SSMs)由于其在建模长距离依赖关系方面的能力,在自然语言处理和图像处理的各种任务中表现出色。本研究将SSM引入图像去雨任务,并提出了去雨频率增强状态空间模型(DFSSM)。为了有效去除在特定方向上产生高强度频率成分的雨条纹,作者在SSM的基础上结合了频域处理。原创 2025-04-16 09:30:00 · 31 阅读 · 0 评论 -
TIP 2025 | VDMUFusion:基于扩散模型的多功能无监督图像融合框架
图像融合通过将同一场景的多个源图像中的信息整合到一个复合图像中,从而有助于感知、分析和理解。近年来,扩散模型在计算机视觉领域展示了令人印象深刻的生成能力,表明其在图像融合中具有巨大的应用潜力。扩散模型的前向过程需要逐步向原始数据添加噪声。然而,典型的无监督图像融合任务(如红外-可见光、医学和多曝光图像融合)缺乏真实标签图像(对应于扩散模型中的原始数据),从而阻碍了扩散模型的直接应用。为了解决这个问题,作者提出了一种基于扩散模型的多功能无监督图像融合框架,称为VDMUFusion。原创 2025-04-15 09:30:00 · 48 阅读 · 0 评论 -
Arxiv 2024 | 基于并行交叉条带注意力网络的单图像去雾
单图像去雾的目标是恢复雾霾图像并生成清晰、高质量的视觉效果。传统的卷积模型由于感受野有限,难以处理长距离依赖关系。虽然Transformer在捕捉长距离依赖关系方面表现出色,但其计算复杂度与特征图分辨率的平方成正比,因此不太适合像素到像素的密集预测任务。此外,大多数模型中的固定核或令牌无法很好地适应不同的模糊尺寸,导致去雾性能不佳。在本研究中,作者提出了一种基于并行条带交叉注意力(PCSA)的多尺度去雾网络。原创 2025-04-15 09:30:00 · 31 阅读 · 0 评论 -
TIP 2025 | 基于可匹配关键点辅助的图神经网络学习特征匹配
准确地匹配两幅图像中对应同一3D场景的局部特征是一项具有挑战性的计算机视觉任务。以往的研究通常使用基于注意力的图神经网络(GNN),在图像内/图像间的关键点上构建全连接图,进行视觉和几何信息的推理。然而,在局部特征匹配的背景下,由于遮挡和检测器失效等因素,大量关键点是不可重复的,因此与这些关键点的连接不仅引入了冗余,导致效率受限(计算复杂度与关键点数量的平方成正比),还会干扰表示聚合过程,导致精度受限。原创 2025-04-14 09:30:00 · 257 阅读 · 0 评论 -
TIP 2024 | FDSR:基于频率分步处理的可解释单图像超分辨率网络
深度学习在单图像超分辨率(SISR)应用中表现出色,然而大多数基于深度学习的超分辨率网络缺乏可解释性,这限制了其在需要透明计算的领域(如医学成像)中的应用。为了解决这些问题,作者提出了一种在图像频域中操作的可解释频率分割超分辨率网络。该网络包括一个频率分割模块和一个分步重建方法,将图像分割为不同频率并分别进行重建。作者开发了一种频率分割损失函数,以确保每个重建模块(ReM)仅在单一图像频率上操作。这些方法为超分辨率网络建立了一个可解释的框架,可视化图像重建过程,减少了超分辨率网络的“黑箱”性质。原创 2025-04-14 09:30:00 · 18 阅读 · 0 评论 -
TIM 2025 | 基于空间滤波降噪的稀疏高光谱图像解混
稀疏解混技术已成为解决高光谱图像中混合像素问题的有力工具。常用的方法是将光谱信息和空间特征结合到稀疏解混框架中,以提高遥感应用的解释能力。然而,在实际应用中,高光谱图像常常受到各种噪声的污染,这给目标信号与混合噪声的区分带来了挑战,并使得混合像素的解释变得复杂。为了解决这一问题,作者提出了一种基于空间滤波的稀疏解混(SFSU)算法。该算法结合了滤波引导的双空间加权因子和正则化项,以最小化解混框架中的丰度误差。通过这种结合,该模型能够从多个角度分析图像中的空间信息,从而减轻不同类型噪声对解混结果的影响。在SF原创 2025-04-13 09:30:00 · 24 阅读 · 0 评论 -
CVPR 2024 | 基于自增强的无监督盲图像去模糊
深度学习方法在图像去模糊领域取得了显著进展,尤其是在成对合成数据上的监督模型表现尤为突出。然而,现实世界中的图像质量退化比合成数据集更为复杂,且在现实场景中获取成对数据具有很大的挑战性。为了解决这些问题,作者提出了一种基于自增强的新型无监督图像去模糊框架。该框架逐步生成改进的伪清晰和模糊图像对,而无需真实的成对数据集,生成的更高质量的图像对可以用于增强重建器的性能。原创 2025-04-13 09:30:00 · 36 阅读 · 0 评论 -
TCSVT 2025 | 基于一致性感知定制学习的跨场景高光谱图像分类
近年来,无监督域适应(UDA)技术已被引入跨场景高光谱图像(HSI)分类任务中。这些技术旨在将知识从有标签的源场景转移到无标签的目标场景,以解决监督信息有限的问题。然而,大多数UDA方法未能分析不同源样本到目标样本的域转移变异性,从而限制了域适应效果。为此,本文提出了一种用于跨场景HSI分类的一致性感知定制学习(CACL)方法。总体而言,该方法分别设计了域级和类级分布对齐。前者通过特征提取器和域判别器之间的对抗训练来实现。对于后者,首先分别动态提取源域和目标域的光谱 - 空间原型。原创 2025-04-12 09:30:00 · 40 阅读 · 0 评论 -
IJCV 2024 | TFFD-Net:一种有效的两阶段混合特征融合与细节恢复去雾网络
图像去雾是提升雾霾天气下拍摄图像质量的有效手段。尽管许多去雾模型已取得出色成果,但大多数模型在去雾过程中忽视了无雾图像细节恢复的准确性,导致部分细节信息丢失。为解决这一问题,作者提出了一种两阶段去雾网络TFFDNet,将去雾和细节恢复分为两个阶段。具体而言,该模型主要由四个部分组成:去雾子网(HRSN)、细节恢复子网(DRSN)、雾图引导特征校正模块(FCM)和跨阶段特征融合模块(CSFFM)。利用HRSN从输入图像中去除基本雾气后,将雾图作为第二模态与去雾特征一同输入FCM。原创 2025-04-12 09:30:00 · 16 阅读 · 0 评论 -
TCSVT 2025 | 具有低频干扰的退化图像全包含式增强方法
本文提出了一种名为全包含图像增强(AIIE)的新型图像增强方法,该方法能够有效增强退化图像,提高图像内容的可见性。这些图像是在诸如雾霾、低光照、水下和沙尘暴等各种天气条件下获取的。这类噪声的一个共同特点是,它们对视觉质量或可见性造成的退化是由低频干扰引起的。现有的图像增强方法缺乏处理这类所有类型退化的能力,而作者提出的AIIE为它们提供了统一的处理方式。原创 2025-04-11 09:30:00 · 34 阅读 · 0 评论 -
TIM 2024 | DBS-YOLO:一种用于危险废物图像的高精度目标检测算法
危险废物对自然环境和人类健康的负面影响显而易见。在现实场景中,危险废物分布密集、相互遮挡,且图像背景复杂,这给现有目标检测算法实现高检测精度带来了巨大挑战。为提高危险废物分类效率,本文基于YOLOv8n网络提出了一种改进的检测模型DBS-YOLO,该模型在精度和轻量级设计之间取得了平衡。首先,作者将C2f模块中的部分卷积模块替换为可变形卷积网络版本3(DCNv3)模块,提出了DC2f模块。将该模块融入YOLOv8n不仅实现了网络的轻量级设计,还增强了模型对被遮挡危险废物的适应性。原创 2025-04-11 09:30:00 · 17 阅读 · 0 评论 -
TIM 2024 | TTSDA-YOLO:一种用于恶劣天气下目标检测的两阶段训练域自适应框架
目标检测在自动驾驶、安全监控、无人机等领域发挥着至关重要的作用。然而,恶劣天气条件,如雾、雨、雪等,会显著降低检测器的性能。这是因为检测器通常在晴朗天气条件下拍摄的图像上进行训练,却在恶劣天气条件下进行测试。恶劣天气下拍摄的图像与晴朗天气下拍摄的图像之间存在域转移问题。在本文中,作者提出了一种基于YOLOv7的鲁棒检测框架,名为两阶段训练域自适应YOLO(TTSDA-YOLO),该框架在正常和恶劣天气条件下均表现出色。作者设计了一种新的训练策略,充分利用辅助域将知识从源域转移到目标域。原创 2025-04-10 09:30:00 · 46 阅读 · 0 评论 -
TIP 2025 | 基于双模拟度量的约束视觉表示学习用于安全强化学习
安全强化学习旨在确保最优性能的同时最小化潜在风险。在实际应用中,尤其是在依赖视觉输入的场景中,关键挑战在于提取用于安全决策的关键特征,同时保持样本效率。为了解决这一问题,作者提出了基于双模拟度量的约束视觉表示学习方法(CVRL-BM)。CVRL-BM构建了一个顺序条件变分推断模型,将高维视觉观测压缩为低维状态表示。此外,引入了安全双模拟度量来量化状态之间的行为相似性,目标是使任意两个潜在状态表示之间的距离尽可能接近其对应状态之间的安全双模拟度量。通过整合这两个组件,CVRL-BM能够学习紧凑且信息丰富的视觉原创 2025-04-10 09:30:00 · 14 阅读 · 0 评论 -
AAAI 2024 | 解锁反向蒸馏在异常检测中的潜力
知识蒸馏(Knowledge Distillation, KD)是一种有前途的无监督异常检测(Anomaly Detection, AD)方法。然而,学生网络的过度泛化常常削弱了教师和学生之间在异常区域的关键表示差异,导致检测失败。为了解决这个问题,广泛接受的反向蒸馏(Reverse Distillation, RD)范式设计了不对称的教师和学生网络,使用编码器作为教师,解码器作为学生。然而,RD的设计并不能确保教师编码器有效区分正常和异常特征,也不能确保学生解码器生成无异常特征。原创 2025-04-09 09:30:00 · 102 阅读 · 0 评论 -
TIP 2024 | 基于解耦跨模态Transformer的RGB-D显著目标检测及其应用
现有的多模态Transformer在RGB-D显著目标检测(SOD)中通常直接将两种模态的所有图像块连接起来,以建模跨模态相关性并进行多模态组合,而不加以区分。这种做法可能导致混淆和低效的融合。相反,作者从两个角度解耦跨模态互补性,以减少跨模态融合的歧义:1)上下文解耦。作者认为,由于模态之间的巨大差异,之前建模跨模态长距离依赖的方法并不具有信息性。作者提出将跨模态互补上下文解耦为模态内的自注意力,以探索全局互补理解,并通过空间对齐的跨模态注意力捕捉局部跨模态相关性。2)表示解耦。原创 2025-04-09 09:30:00 · 22 阅读 · 0 评论