自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(173)
  • 收藏
  • 关注

原创 (cvpr26) STCast: Adaptive Boundary Alignment for Global and Regional Weather Forecasting

本文提出STCast气象模型,通过全球-区域耦合策略解决传统区域预报边界静态化问题。核心创新点包括:(1)空间对齐注意力模块(SAA),基于球面距离动态学习区域边界,使远程天气系统(如寒潮)获得合理权重;(2)时序混合专家模块(TMoE),按月份分配预测专家并采用高斯路由,提升长期预报稳定性。模型采用Encoder-Processor-Decoder架构,输入18个全球变量(0.25°分辨率),可输出6小时至10天的预报。实验表明该方法在保持区域高分辨率的同时,能有效捕捉全球大气耦合效应,克服现有方法对相邻

2026-05-07 11:32:27 169

原创 (aaaai26) M3SR: Multi-Scale Multi-Perceptual Mamba for Efficient Spectral Reconstruction

本文提出了一种基于Mamba的多尺度多感知光谱重建方法M3SR,解决了传统方法在空间感知和特征提取方面的局限性。该方法采用U-Net结构,核心创新是MPF模块,通过三个分支分别处理空间、频率和光谱特征:空间分支基于VSS block建模空间信息;频率分支结合小波变换学习多频特征;光谱分支使用一维Mamba处理光谱维度。三个分支的特征通过自适应加权实现融合,有效提升了模型对复杂结构和细节的捕捉能力。实验结果表明,该方法在光谱重建任务中表现出色。

2026-05-06 22:40:39 189

原创 (aaai26) MambaSeg: Harnessing Mamba for Accurate and Efficient Image-Event Semantic Segmentation

包括两个关键部分,Cross-Spatial Interaction Module(CSIM) 和 Cross-Temproal Interaction Module (CTIM),结构分别如下图所示,图中画的还比较清楚。都是先做 attention,再做扫描。值得注意的是,CSIM中因为得到的二维特征,因此是4个扫描方向。在CTIM中,二维图像被拉成一维向量,因此只有2个扫描方向。为了解决这两个问题,作者提出了 MambaSeg 模型,架构如下图所示,核心是 DDIM 模块,提供空间、时序 特征的交互。

2026-05-06 21:41:38 213

原创 (aaai26) Self-supervised Multiplex Consensus Mamba for General Image Fusion

多路共识跨模态Mamba 是论文的核心,构建N 个跨模态 Mamba 专家,门控网络自适应分配权重。3)共识损失:让被激活的专家最终 “达成一致”,输出稳定可靠的融合结果,不打架、不跑偏。在训练时,作者设计了动态权重,让前期侧重多样性,后期侧重共识。这篇论文提出SMC‑Mamba(自监督多路共识 Mamba),用线性复杂度 Mamba建模全局上下文,用混合专家适配多任务,用双层自监督对比损失保住高频细节,实现一套模型在红外‑可见光、医学、多焦点、多曝光四大任务上超越 SOTA。推开距离→融合高频≠源低频。

2026-05-06 06:33:53 181

原创 (aaai26) Depth-Synergized Mamba Meets Memory Experts for All-Day Image Reflection Separation

为了解决这两个问题,作者提出了 Depth-Synergized Decoupling Mamba (DSMamba),其中 Depth-Aware Scanning Strategy (DA-Scan) 为 T 和 R 分别定制了扫描策略,使模型在建模早期阶段就能遇到显著结构,有助于建立语义连贯性。此外,为了克服单幅图像信息有限的缺陷,作者还引入了Memory Expert Compensation Module(MECM),以利用跨图像的历史知识提升性能。论文的设置是总专家 4 个,选 2 个。

2026-05-06 06:32:51 368

原创 (tip26) Interactive Spatial-Frequency Fusion Mamba for Multi-Modal Image Fusion

本文提出了一种基于Mamba的交互式空频融合框架(ISFM)用于多模态图像融合。针对现有方法在频率域融合不足的问题,设计了多尺度频率融合(MFF)模块,通过低频/高频融合块分别实现全局信息整合和边缘增强;并创新性地引入交互式空频融合(ISF)模块,利用频率引导曼巴和门控机制实现跨模态特征交互。该方法有效提升了多模态信息的自适应融合能力,在保持线性计算复杂度的同时,显著改善了高频噪声抑制和特征提取效果。

2026-03-18 21:45:43 71

原创 (cvpr25) MP-HSIR: 面向通用高光谱图像复原的多提示框架

本文提出MP-HSIR框架,通过融合光谱、文本和视觉三模态提示实现通用高光谱图像复原。核心包含两个模块:(1)提示引导空谱Transformer(PGSSTB),采用全局-局部分支结构,通过可学习光谱提示提供通用低秩模式,增强光谱特征重建;(2)文本-视觉协同提示(TVSP),结合CLIP生成的文本提示和可学习视觉提示,实现退化感知的特征调控。该方法能有效提升模型对不同退化类型和场景的泛化能力,在光谱特征复原和退化建模方面取得显著改进。

2026-03-18 21:08:54 46

原创 (cvpr26) NS-FPN: 从噪声抑制角度改进红外小目标的检测与分割

本文提出一种基于离散小波变换的红外小目标检测方法NS-FPN。研究发现高频分量是关键但含噪声,低频分量可抑制噪声。NS-FPN包含两个创新模块:LFP模块利用低频分量进行高频特征两步纯化,先通过空间注意力增强目标特征,再通过门控高斯滤波消除噪声;SFS模块采用螺旋采样策略,结合高斯分布特征进行特征融合,提升细粒度感知。相比现有方法过度关注高频特征导致虚警率高的问题,NS-FPN通过噪声抑制机制实现了更准确的目标检测。

2026-03-18 20:32:40 303

原创 (cvpr26) PFGNet:用于时空预测的频率引导外围门控网络

PFGNet提出了一种受生物视觉启发的全卷积时空预测网络,通过频率引导门控机制解决传统卷积感受野固定问题。模型核心是外围频率门控模块(PFG Block),采用大核分解卷积提取特征并引入可学习中心抑制机制,模拟生物视觉的带通滤波特性。同时利用Sobel、拉普拉斯等算子构建频率描述子,实现像素级多尺度自适应选择。该设计在保持高效的同时提升了建模能力,通过数学证明验证了其合理性,在时空预测任务中实现了精度与效率的平衡。

2026-03-02 13:43:26 499

原创 (iclr26) ARROW: An Adaptive Rollout and Routing Method for Global Weather Forecasting

本文提出ARROW模型解决传统深度学习方法在长期天气预报中的两大缺陷:时空依赖建模不足和自回归策略缺乏灵活性。模型包含多间隔预报模型(MIFM)和自适应滚动调度器(AR Scheduler),通过环形位置编码解决球面几何特征表示问题,采用共享-私有混合专家网络实现多时间间隔统一建模,并结合强化学习动态优化预报间隔。实验表明,ARROW在WeatherBench基准上全面超越现有方法,在极端天气预测和实用场景中展现出优异性能,验证了数据驱动天气预报的潜力。

2026-02-08 21:05:31 664

原创 (ICLR26) Task-Adaptive Parameter-Efficient Fine-Tuning for Weather Foundation Models

本文提出WeatherPEFT框架,针对天气基础模型(WFMs)参数高效微调问题,设计了任务自适应动态提示(TADP)和随机费雪引导自适应选择(SFAS)两大核心模块。TADP通过多维适配器和自注意力机制处理气象数据的变量异质性和分辨率多样性;SFAS则利用费雪信息矩阵和退火随机策略,动态筛选关键参数进行更新。实验表明,该方法在多个气象任务上仅需微调0.28%-4%参数即可达到或超越全微调性能,显著降低了计算成本。该研究为气象大模型的高效部署提供了新思路。

2026-02-05 07:00:41 608

原创 (cvpr25) Spiking Transformer with Spatial-Temporal Attention

本文提出STAtten机制,在脉冲Transformer中引入时空注意力。针对现有方法仅关注空间注意力而忽略时间依赖性的问题,STAtten通过块级时间划分将时间序列分割为局部块,仅在块内建模时空关系,有效降低了内存开销并减少了无效神经元计算。该方法采用非Softmax计算重排序策略,先计算KxV再与Q交互,在保持计算效率的同时捕捉脉冲信号的时空动态特征。实验表明,该方法在时序化视觉任务中显著提升了性能。

2026-01-09 16:14:31 317

原创 (NeurIPS25) Spiking Meets Attention: 基于注意力脉冲神经网络的高效遥感图像超分辨率重建

本文提出一种基于脉冲神经网络的遥感图像超分辨率方法SpikeSR,通过创新的脉冲注意力组(SAG)和可变形相似性注意力(DSA)模块解决SNN在超分辨率任务中的关键挑战。SAG结合脉冲注意力块和卷积块增强特征提取,DSA利用可变形卷积和多尺度金字塔有效捕捉全局相似性并处理几何错位。实验表明该方法在保持SNN低功耗优势的同时,显著提升了超分辨率性能,为遥感图像处理提供了高效解决方案。

2026-01-06 23:34:15 292

原创 (NeurIPS25) DAWP: A framework for global observation forecasting via Data Assimilation and Weather P

摘要:针对传统AI天气预报依赖再分析数据导致的信息丢失和时间滞后问题,以及卫星观测预测中存在的输入输出分布偏移问题,本文提出DAWP框架。该框架由AIDA数据同化模块和AIWP预测模块组成,全程在观测空间运行。AIDA采用多模态MAE填补观测缺失值,AIWP通过时空解耦Transformer实现高效全球预测。实验表明,该方法有效解决了现有AI天气预报系统的关键限制问题。

2026-01-05 16:09:33 340

原创 (aaai25) EWMoE: An Effective Model for Global Weather Forecasting with Mixture-of-Experts

本文提出EWMoE气象预报模型,通过3D位置嵌入和混合专家层提升预测性能。模型基于Transformer架构,创新性地融合三维地理坐标信息,并采用MoE层增强特征提取能力。实验表明,EWMoE在短中期预报中优于主流模型,仅需2年训练数据即达到或超越需37年数据的模型性能,尤其在3-8天预报中表现突出。该方案有效解决了现有方法数据需求大、特征提取不足的问题,为高效气象预测提供了新思路。

2026-01-05 14:40:53 348

原创 (aaai25) Dynamic Clustering Convolutional Neural Network

本文提出了一种全局聚类卷积方法,旨在平衡计算效率和全局建模能力。核心思路是将图像分块后进行动态聚类,将语义相似的块分组为簇,再对每个簇使用共享卷积核处理。该方法通过子向量采样降低计算成本,利用Top-K算法构建全局分布的簇,并借鉴深度可分离卷积思想实现高效的特征提取。实验证明,这种方法既保持了CNN的计算效率,又获得了类似Transformer的全局建模能力。

2026-01-05 11:01:18 340

原创 (NeurIPS25) FuXi-Ocean: A Global Ocean Forecasting System withSub-Daily Resolution

本文提出FuXi-Ocean,首个数据驱动的全球海洋预报模型,实现了6小时时间分辨率、1/12°空间分辨率和0-1500m深度覆盖。针对海洋变量的多尺度时间动态特性,模型创新性地设计了自适应多尺度时间建模架构和Mixture-of-Time模块,通过通道级自适应选择融合多个时间窗口预测结果,有效减轻误差累积。模型仅需9年训练数据,通过物理约束和空间连贯性利用实现高数据效率。实验表明,该模型能自适应捕捉不同深度海洋变量的动态特征,在亚日尺度预报中显著优于传统方法。

2025-12-09 04:27:57 1011

原创 (NeurIPS25) DAMamba: Vision State Space Model with Dynamic Adaptive Scan

本文提出Dynamic Adaptive Scan(DAS)方法,解决现有视觉SSM中人工预设扫描策略破坏图像空间结构的问题。DAS通过可学习的偏移预测网络动态调整图像块的采样位置,使扫描顺序数据驱动化。具体流程包括:将图像划分为patch并归一化坐标;利用轻量网络预测每个patch的偏移量;通过插值计算新采样位置并按序排列成1D序列。该方法能自动聚焦关键区域,提升SSM对图像结构的建模能力。

2025-11-26 11:15:01 435

原创 (iccv25) Emulating Self-attention with Convolution for Efficient Image Super-Resolution

本文针对自注意力机制在图像超分任务中存在的层间冗余问题,提出一种高效的卷积注意力模块(ESC Block)。通过共享大核卷积(13×13)模拟长程依赖,配合动态生成的3×3卷积核实现输入自适应,在保留自注意力关键特性的同时显著降低计算量。实验表明该方法能有效建模全局关系,提升超分效率。网络架构包含Conv3×3、多个ESC Block和上采样模块,其中ConvAttn通过1×1卷积融合局部与全局特征。

2025-11-24 11:36:10 459

原创 (arxiv2511) Step by Step Network

摘要 本文探讨了深度网络难以继续加深(如超过100层)的核心问题:残差短路退化(Shortcut Degradation)和宽度受限(Limited Width)。提出StepsNet解决方案,通过分阶段逐步扩大通道维度(如narrow→wide),在固定计算量下实现“既深又宽”的结构。实验表明: 3步分阶段设计效果最佳; 早期窄网络分配更多计算资源更有效; 逐步扩大策略(narrow→wide)显著优于反向设计。 StepsNet通过保留早期关键信息传递路径,有效缓解深层网络的优化难题。 (字数:149)

2025-11-24 10:42:37 365

原创 (aaai26) LWGANet: A Lightweight Group Attention Backbone for Remote Sensing Visual Tasks

本文提出Samba框架,一种基于Mamba的通用显著性目标检测方法。针对现有方法存在的空间连续性破坏和特征对齐问题,设计了两种创新模块:1)显著性引导Mamba块(SGMB),通过四种扫描策略优先处理显著性区域,保持目标空间连续性;2)上下文感知上采样(CAU),融合多尺度特征时考虑上下文依赖,提升特征对齐效果。实验表明该方法在RGB、RGB-D、RGB-T等多种模态数据上均取得优异性能。代码已开源。

2025-11-24 09:02:20 426

原创 (cvpr25) Samba: A Unified Mamba-based Framework for General Salient Object Detection

本文提出Samba框架,一种基于Mamba的通用显著性目标检测方法。针对现有方法存在的空间连续性破坏和特征对齐问题,设计了两种创新模块:1)显著性引导Mamba块(SGMB),通过四种扫描策略优先处理显著性区域,保持目标空间连续性;2)上下文感知上采样(CAU),融合多尺度特征时考虑上下文依赖,提升特征对齐效果。实验表明该方法在RGB、RGB-D、RGB-T等多种模态数据上均取得优异性能。代码已开源。

2025-10-05 08:55:35 469

原创 (ACMMM25) Novel Category Discovery with X-Agent Attention for Open-Vocabulary Semantic Segmentation

本文提出了一种新颖的X-Agent注意力框架,用于解决开放词汇语义分割中的"潜在语义"丢失问题。研究发现,视觉语言模型在训练过程中会逐渐遗忘未标注类别的知识。为此,作者设计了包含agent选择、池化和注意力三个模块的X-Agent框架,通过计算文本-视觉特征相似度,筛选关键token并采用掩码引导的双分支结构进行特征聚合,最终实现对新类别的有效分割。该方法在保持模型原有性能的同时,显著提升了发现未知类别语义的能力。

2025-10-05 01:09:06 367

原创 (ACMMM25) DeflareMamba: Hierarchical Vision Mamba for Contextually Consistent Lens Flare Removal

本文提出DeflareMamba,首个将状态空间模型(SSMs)用于镜头眩光去除的网络。针对SSMs在眩光去除中的两个问题:忽视局部像素关系和长程衰减特性,分别设计了局部增强SSM块(L-RSSB)和分层选择性扫描(H-RSSB)。模型采用U-Net架构,编码器使用L-RSSG提取局部特征,解码器引入H-RSSB实现多尺度全局特征建模。其中Hierarchical Selective Scan通过不同步长的特征采样,构建多尺度特征描述,有效解决长程衰减问题。该方法在保持局部细节的同时,增强了全局语义一致性,

2025-09-27 06:13:54 336

原创 (cvpr2025) IceDiff: 高分辨率北极海冰预报

本文提出IceDiff框架实现高分辨率(6.25km)北极海冰预测。该框架采用两阶段方法:第一阶段使用Transformer U-Net在25km分辨率预测海冰密集度;第二阶段通过引导扩散模型对预测结果进行超分辨率重建至6.25km。实验表明该方法能生成高质量的海冰预测结果,代码已开源。

2025-08-13 15:44:08 342

原创 VAE原理

本文介绍了变分自编码器(VAE)的基本原理和实现方法。VAE通过编码器将输入数据映射到潜在空间的标准正态分布,再通过解码器重建数据。其损失函数包含重建损失和KL散度两项,前者衡量重建质量,后者约束潜在变量分布。文章提供了基于PyTorch的完整实现代码,包括VAE模型定义、损失函数计算以及MNIST数据集的训练流程。代码展示了如何构建包含均值和对数方差预测的编码器,以及通过重参数化技巧实现的可微采样过程。训练完成后,只需从标准正态分布采样即可生成新的图像。该实现简洁明了,适合初学者理解VAE的核心概念和实现

2025-08-13 09:43:10 698

原创 (cvpr25) SegEarth-OV 遥感图像开放词汇语义分割

本文提出SegEarth-OV模型,解决遥感图像开放词汇语义分割问题。针对CLIP特征在遥感图像上的适应性不足,设计了SimFeatUp网络进行特征上采样,并引入重建网络确保特征质量。通过消除CLIP特征的全局偏差(减去CLS token),有效抑制类别偏差干扰。最终通过特征与文本嵌入的相似度计算实现分割。该方法无需训练即可支持开放词汇场景,为遥感图像分割提供了新思路。代码已开源。

2025-08-12 14:44:56 352

原创 (NeruIPS24) InLine Attention

《InLine:改进线性注意力机制的单射性与局部性》一文提出了一种新型注意力机制InLine,在保持线性复杂度优势的同时解决了传统线性注意力的两大缺陷。首先,作者通过数学证明指出标准线性注意力非单射的特性会导致语义混淆问题,提出改用减法归一化确保单射性;其次,针对Softmax注意力的局部聚焦特性,引入局部注意力残差模块。实验表明,该方法在计算效率与模型性能间取得更好平衡。相关工作已在GitHub开源,并配有详细讲解视频。

2025-08-10 12:12:26 458

原创 (iccv2025) TinyViM: Frequency Decoupling for Tiny Hybrid Vision Mamba

TinyViM提出了一种频率解耦的混合视觉Mamba模型,通过Laplace Mixer模块有效平衡高低频特征提取。该方法采用渐进式融合策略(Frequency Ramp Inception),浅层偏重卷积特征,深层侧重Mamba特征。核心创新是将特征通过池化差分分解为低频(池化部分)和高频(差分部分),解决了传统Mamba偏重低频特征的问题。实验表明,该框架在保持轻量化的同时提升了特征表达能力。代码已开源,模型包含四个阶段,每阶段由局部卷积块和TinyViM块组成。

2025-07-12 07:37:58 494

原创 (cvpr2025) GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model

本文提出GroupMamba,一种参数高效且准确的视觉状态空间模型。针对VMamba复杂度高的问题,作者设计了调制分组Mamba层,受分组卷积启发将特征分为四组分别扫描后拼接。为增强组间交互,提出通道亲和力调制模块(CAM)进行通道加权。针对大模型训练不稳定性,采用知识蒸馏提升性能。实验验证了方法的有效性。代码已开源。

2025-07-07 10:07:45 243

原创 (aaai25) EfficientVMamba: Atrous Selective Scan for Light Weight Visual Mamba

本文提出EfficientVMamba模型,通过改进扫描策略降低计算复杂度。作者设计ES2D方法,采用步长2的间隔扫描,将序列长度缩减为1/4。为弥补局部性损失,引入双路径模块:一个路径保持间隔扫描,另一路径使用卷积,并用通道注意力动态融合。实验表明该设计有效平衡了效率与性能。此外,深层采用MobileNetV2的倒残差块可提升效果。该方法显著降低了VMamba的计算负担,同时保持了模型性能。

2025-07-07 09:18:44 504

原创 (AAAI2025) TimeCMA:LLM赋能时序预测

本文提出TimeCMA模型,通过跨模态对齐实现大语言模型(LLM)赋能的多元时间序列预测。针对现有方法直接将时序数据与文本特征拼接导致信息混杂的问题,作者创新性地设计LLM-Empowered编码模块,将时序数据转化为包含时间和数值信息的文本提示,经GPT-2处理提取最具代表性的最后一个token特征。模型采用双模态编码和跨模态注意力融合架构,有效提升了预测性能。实验结果表明该方法优于传统拼接方式,为时序分析与LLM结合提供了新思路。代码已开源。

2025-07-04 07:24:39 575

原创 (tpami2025) Low-Resolution Self-Attention for Semantic Segmentation

摘要:论文《Low-Resolution Self-Attention for Semantic Segmentation》提出了一种高效的自注意力机制LRSA,通过将QKV下采样至固定尺寸(如16x16)计算注意力,显著降低计算量。为弥补局部细节损失,作者并行引入3x3深度可分离卷积捕获高分辨率特征。该方法在保持性能的同时优化了计算效率,实验表明16x16下采样尺寸效果最佳。代码已开源。

2025-07-04 05:58:08 522

原创 (cvpr2025) DarkIR: Robust Low-Light Image Restoration

《DarkIR:鲁棒性低光图像恢复方法》提出了一种联合处理去噪、去模糊和低光增强的统一框架。该模型采用UNet结构,前半部分使用EBlock(基于频率域特征建模)进行光照校正,后半部分采用DBlock(多尺度大核卷积)处理去模糊任务。EBlock通过FFT变换到频域处理幅值信息,再转换回空间域;DBlock则通过多尺度大核卷积提升图像清晰度。该方法突破了传统单独处理各任务的局限,实现了端到端的低光图像恢复。代码已开源。

2025-07-03 21:12:30 784

原创 (ICLR2025) Differential Transformer

本文提出Diff Transformer模型,针对传统Transformer易受噪声干扰的问题进行改进。通过生成两组独立的Q、K矩阵并计算其注意力矩阵差值,该方法有效过滤无关上下文。实验证明该模型能显著减少问答任务中的幻觉现象。这种简单而创新的差分机制为注意力计算提供了新思路,在NLP和CV领域具有应用潜力。代码已开源。

2025-06-24 14:22:38 295

原创 (cvpr2025) DefMamba: Deformable Visual State Space Model

Deformable SSM 的架构如下图所示,是典型的VMamba结构,不同的是除了普通的正向扫描和反向扫描,作者添加了一个Deformable扫描。为此,提出了DefMamba模型,通过可变形扫描策略动态调整扫描路径,优先关注重要信息,解决了空间结构信息丢失问题,显著提升了图像分类、目标检测和分割等任务的性能。黄色到绿色代表扫描顺序。模型整体框架如下图所示,是典型的VIT四阶段结构,核心创新点在 Deformable SSM 这里,本质是将 Deformable conv 引入了 Mamba。

2025-06-23 22:36:00 548 1

原创 (aaai2025) SparseViT: 用于图像篡改检测的Spare-Coding Transformer

SparseViT提出了一种基于稀疏编码Transformer的图像篡改检测新方法。不同于现有语义分割主导的模型,该方法采用稀疏自注意力机制(稀疏率S=8,4,2,1)在非重叠patch内计算全局注意力,有效捕捉篡改相关的边缘特征。模型包含卷积阶段(阶段1-2)和稀疏Transformer阶段(阶段3-4),并通过可学习特征融合模块(LFF)自适应融合多尺度特征。实验表明稀疏注意力能更好地聚焦于操作痕迹而非语义区域。代码已开源。

2025-06-22 10:22:30 647

原创 (iclr2025) Spatial-Mamba: Effective Visual State Space Models via Structure-aware State Fusion

《Spatial-Mamba: 通过结构感知状态融合提升视觉状态空间模型》提出了一种改进视觉建模的新方法。针对现有状态空间模型(SSMs)在图像处理时将2D数据展平为1D序列导致空间信息丢失的问题,作者设计了Spatial-Mamba模型。其核心创新是structure-aware state fusion(SASF)模块,通过膨胀卷积对邻近状态进行重加权与融合,有效增强空间关系建模能力。实验表明,相比原始Mamba和线性注意力机制,该方法不仅扩展了上下文建模范围,还能识别远距离相关区域。可视化结果证实Sp

2025-06-22 08:41:23 529

原创 (cvpr2025) Adaptive Rectangular Convolution for Remote Sensing Pansharpening

传统的固定形状卷积核(如 3x3 或 5x5)无法有效地捕捉这些不同尺度的特征,而ARConv通过自适应调整卷积核的形状,能够更好地提取每个局部区域的特征。为了解决这两个问题,作者提出了 ARConv (Adaptive Rectangular Convolution),与当前方法的比较如下图所示,最大的变化是窗口可以变成3x5这样的形状,这个尺寸是通过网络学出来的。作者认为现有的基于CNN的方法中,传统的卷积存在两个问题:问题1,卷积被限制在一个固定的方形窗口内。问题2,采样点的个数是预设的,保持不变。

2025-06-16 14:15:38 865

原创 (cvpr2025) MobileMamba

作者设计了一个高效的Multi-Receptive FieldFeature Interaction (MRFFI)模块,如下图所示。论文:(cvpr2025)MobileMamba: Lightweight Multi-Receptive Visual Mamba。通过MRFFI获得的特征集成了全局和局部感受野的信息,增强了高频边缘细节的提取。实验部分可以参考作者论文,这里不过多介绍。Network 代码:https://github.com/lewandofskee/MobileMamba。

2025-06-13 15:50:43 337

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除