科研狗@OUC-CSDN博客

原创 (cvpr2025) IceDiff: 高分辨率北极海冰预报

本文提出IceDiff框架实现高分辨率(6.25km)北极海冰预测。该框架采用两阶段方法：第一阶段使用Transformer U-Net在25km分辨率预测海冰密集度；第二阶段通过引导扩散模型对预测结果进行超分辨率重建至6.25km。实验表明该方法能生成高质量的海冰预测结果，代码已开源。

2025-08-13 15:44:08 169

原创 VAE原理

本文介绍了变分自编码器（VAE）的基本原理和实现方法。VAE通过编码器将输入数据映射到潜在空间的标准正态分布，再通过解码器重建数据。其损失函数包含重建损失和KL散度两项，前者衡量重建质量，后者约束潜在变量分布。文章提供了基于PyTorch的完整实现代码，包括VAE模型定义、损失函数计算以及MNIST数据集的训练流程。代码展示了如何构建包含均值和对数方差预测的编码器，以及通过重参数化技巧实现的可微采样过程。训练完成后，只需从标准正态分布采样即可生成新的图像。该实现简洁明了，适合初学者理解VAE的核心概念和实现

2025-08-13 09:43:10 325

原创 (cvpr25) SegEarth-OV 遥感图像开放词汇语义分割

本文提出SegEarth-OV模型，解决遥感图像开放词汇语义分割问题。针对CLIP特征在遥感图像上的适应性不足，设计了SimFeatUp网络进行特征上采样，并引入重建网络确保特征质量。通过消除CLIP特征的全局偏差（减去CLS token），有效抑制类别偏差干扰。最终通过特征与文本嵌入的相似度计算实现分割。该方法无需训练即可支持开放词汇场景，为遥感图像分割提供了新思路。代码已开源。

2025-08-12 14:44:56 146

原创 (NeruIPS24) InLine Attention

《InLine：改进线性注意力机制的单射性与局部性》一文提出了一种新型注意力机制InLine，在保持线性复杂度优势的同时解决了传统线性注意力的两大缺陷。首先，作者通过数学证明指出标准线性注意力非单射的特性会导致语义混淆问题，提出改用减法归一化确保单射性；其次，针对Softmax注意力的局部聚焦特性，引入局部注意力残差模块。实验表明，该方法在计算效率与模型性能间取得更好平衡。相关工作已在GitHub开源，并配有详细讲解视频。

2025-08-10 12:12:26 326

原创 (iccv2025) TinyViM: Frequency Decoupling for Tiny Hybrid Vision Mamba

TinyViM提出了一种频率解耦的混合视觉Mamba模型，通过Laplace Mixer模块有效平衡高低频特征提取。该方法采用渐进式融合策略（Frequency Ramp Inception），浅层偏重卷积特征，深层侧重Mamba特征。核心创新是将特征通过池化差分分解为低频（池化部分）和高频（差分部分），解决了传统Mamba偏重低频特征的问题。实验表明，该框架在保持轻量化的同时提升了特征表达能力。代码已开源，模型包含四个阶段，每阶段由局部卷积块和TinyViM块组成。

2025-07-12 07:37:58 414

原创 (cvpr2025) GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model

本文提出GroupMamba,一种参数高效且准确的视觉状态空间模型。针对VMamba复杂度高的问题，作者设计了调制分组Mamba层，受分组卷积启发将特征分为四组分别扫描后拼接。为增强组间交互，提出通道亲和力调制模块(CAM)进行通道加权。针对大模型训练不稳定性，采用知识蒸馏提升性能。实验验证了方法的有效性。代码已开源。

2025-07-07 10:07:45 171

原创 (aaai25) EfficientVMamba: Atrous Selective Scan for Light Weight Visual Mamba

本文提出EfficientVMamba模型，通过改进扫描策略降低计算复杂度。作者设计ES2D方法，采用步长2的间隔扫描，将序列长度缩减为1/4。为弥补局部性损失，引入双路径模块：一个路径保持间隔扫描，另一路径使用卷积，并用通道注意力动态融合。实验表明该设计有效平衡了效率与性能。此外，深层采用MobileNetV2的倒残差块可提升效果。该方法显著降低了VMamba的计算负担，同时保持了模型性能。

2025-07-07 09:18:44 435

原创 (AAAI2025) TimeCMA：LLM赋能时序预测

本文提出TimeCMA模型，通过跨模态对齐实现大语言模型(LLM)赋能的多元时间序列预测。针对现有方法直接将时序数据与文本特征拼接导致信息混杂的问题，作者创新性地设计LLM-Empowered编码模块，将时序数据转化为包含时间和数值信息的文本提示，经GPT-2处理提取最具代表性的最后一个token特征。模型采用双模态编码和跨模态注意力融合架构，有效提升了预测性能。实验结果表明该方法优于传统拼接方式，为时序分析与LLM结合提供了新思路。代码已开源。

2025-07-04 07:24:39 343

原创 (tpami2025) Low-Resolution Self-Attention for Semantic Segmentation

摘要：论文《Low-Resolution Self-Attention for Semantic Segmentation》提出了一种高效的自注意力机制LRSA，通过将QKV下采样至固定尺寸（如16x16）计算注意力，显著降低计算量。为弥补局部细节损失，作者并行引入3x3深度可分离卷积捕获高分辨率特征。该方法在保持性能的同时优化了计算效率，实验表明16x16下采样尺寸效果最佳。代码已开源。

2025-07-04 05:58:08 272

原创 (cvpr2025) DarkIR: Robust Low-Light Image Restoration

《DarkIR：鲁棒性低光图像恢复方法》提出了一种联合处理去噪、去模糊和低光增强的统一框架。该模型采用UNet结构，前半部分使用EBlock（基于频率域特征建模）进行光照校正，后半部分采用DBlock（多尺度大核卷积）处理去模糊任务。EBlock通过FFT变换到频域处理幅值信息，再转换回空间域；DBlock则通过多尺度大核卷积提升图像清晰度。该方法突破了传统单独处理各任务的局限，实现了端到端的低光图像恢复。代码已开源。

2025-07-03 21:12:30 423

原创 (ICLR2025) Differential Transformer

本文提出Diff Transformer模型，针对传统Transformer易受噪声干扰的问题进行改进。通过生成两组独立的Q、K矩阵并计算其注意力矩阵差值，该方法有效过滤无关上下文。实验证明该模型能显著减少问答任务中的幻觉现象。这种简单而创新的差分机制为注意力计算提供了新思路，在NLP和CV领域具有应用潜力。代码已开源。

2025-06-24 14:22:38 128

原创 (cvpr2025) DefMamba: Deformable Visual State Space Model

Deformable SSM 的架构如下图所示，是典型的VMamba结构，不同的是除了普通的正向扫描和反向扫描，作者添加了一个Deformable扫描。为此，提出了DefMamba模型，通过可变形扫描策略动态调整扫描路径，优先关注重要信息，解决了空间结构信息丢失问题，显著提升了图像分类、目标检测和分割等任务的性能。黄色到绿色代表扫描顺序。模型整体框架如下图所示，是典型的VIT四阶段结构，核心创新点在 Deformable SSM 这里，本质是将 Deformable conv 引入了 Mamba。

2025-06-23 22:36:00 364 1

原创 (aaai2025) SparseViT: 用于图像篡改检测的Spare-Coding Transformer

SparseViT提出了一种基于稀疏编码Transformer的图像篡改检测新方法。不同于现有语义分割主导的模型，该方法采用稀疏自注意力机制（稀疏率S=8,4,2,1）在非重叠patch内计算全局注意力，有效捕捉篡改相关的边缘特征。模型包含卷积阶段（阶段1-2）和稀疏Transformer阶段（阶段3-4），并通过可学习特征融合模块（LFF）自适应融合多尺度特征。实验表明稀疏注意力能更好地聚焦于操作痕迹而非语义区域。代码已开源。

2025-06-22 10:22:30 392

原创 (iclr2025) Spatial-Mamba: Effective Visual State Space Models via Structure-aware State Fusion

《Spatial-Mamba: 通过结构感知状态融合提升视觉状态空间模型》提出了一种改进视觉建模的新方法。针对现有状态空间模型(SSMs)在图像处理时将2D数据展平为1D序列导致空间信息丢失的问题，作者设计了Spatial-Mamba模型。其核心创新是structure-aware state fusion(SASF)模块，通过膨胀卷积对邻近状态进行重加权与融合，有效增强空间关系建模能力。实验表明，相比原始Mamba和线性注意力机制，该方法不仅扩展了上下文建模范围，还能识别远距离相关区域。可视化结果证实Sp

2025-06-22 08:41:23 337

原创 (cvpr2025) Adaptive Rectangular Convolution for Remote Sensing Pansharpening

传统的固定形状卷积核（如 3x3 或 5x5）无法有效地捕捉这些不同尺度的特征，而ARConv通过自适应调整卷积核的形状，能够更好地提取每个局部区域的特征。为了解决这两个问题，作者提出了 ARConv （Adaptive Rectangular Convolution），与当前方法的比较如下图所示，最大的变化是窗口可以变成3x5这样的形状，这个尺寸是通过网络学出来的。作者认为现有的基于CNN的方法中，传统的卷积存在两个问题：问题1，卷积被限制在一个固定的方形窗口内。问题2，采样点的个数是预设的，保持不变。

2025-06-16 14:15:38 594

原创 (cvpr2025) MobileMamba

作者设计了一个高效的Multi-Receptive FieldFeature Interaction (MRFFI)模块，如下图所示。论文：（cvpr2025）MobileMamba: Lightweight Multi-Receptive Visual Mamba。通过MRFFI获得的特征集成了全局和局部感受野的信息，增强了高频边缘细节的提取。实验部分可以参考作者论文，这里不过多介绍。Network 代码：https://github.com/lewandofskee/MobileMamba。

2025-06-13 15:50:43 241

原创 (ACMMM 2024) RainMamba: Enhanced Locality Learning with State Space Models for Video Deraining

将修复图像黄色星号区域的patch做为 anchor，相邻帧里该区域周围的patch做为正样本，相邻帧里与该区域距离远的patch做为负样本，然后进行对比学习。RainMamba的网络的整体架构如下图所示，是 encoder-decoder结构，中间有若干Coarse-to-Fine Mamba (CFM)，包括全局Mamba块和局部Mamba块两种。考虑到一个 patch 与同一帧和后续帧中的相邻 patch 具有相似性，作者提出了一种差异引导的动态对比局部学习策略来保持patch级的语义信息。

2025-06-03 13:46:12 392

原创 (cvpr2025) MaIR: A Locality- and Continuity-Preserving Mamba for Image Restoration

作者提出了MaIR模型，提出了Nested S-shaped Scanning strategy (NSS)，与当前方法的比较如下图所示。作者的MaIR方法将图像划分为多个不重叠的条带，在条带内和条带间采用s型扫描路径，SSA的细节如下图所示。对4个扫描路径得到的序列进行聚合，这样能够捕获不同序列之间的复杂依赖关系，更好地利用来自不同扫描方向的互补信息。4个方向的特征首先进行池化，然后进行shuffle，接着进行分组卷积，使用unshuffle恢复，最后重新组合成注意力权重，分别对4个方向特征进行加权。

2025-06-03 08:18:10 536

原创 (cvpr2025) SegMAN: 基于状态空间模型和局部注意力全尺度上下文建模语义分割

本文提出SegMAN网络，通过结合状态空间模型和局部注意力机制实现语义分割中的全尺度上下文建模。针对现有方法难以同时兼顾全局上下文、局部细节和多尺度特征的不足，该网络采用双创新设计：编码器使用LASS模块（局部注意力与状态空间串联）提取特征，解码器引入MMSCopE模块（基于Mamba的多尺度特征融合）。实验表明，该方法能有效扩大感受野并提升细节分割效果，在典型编解码架构中实现了全局建模、局部编码与多尺度表征的统一。代码已开源。

2025-06-03 06:14:56 438

原创 (aaai2024) Omni-Kernel Network for Image Restoration

其中，局部分支（ 1x1 的卷积）和大核卷积分支（ 63x63 的大核卷积）如图所示，比较简单。在DCAM中，首先计算频率域的 channel attention，然后计算一个空间域的 channel attention。研究动机：作者认为Transformer模型计算复杂度太高，因此提出了 omni-kernel module （OKM），可以有效的学习局部到全局的特征表示。整体网络架构比较简单，就是非常简单的encoder-decoder结构，OKM插入在网络瓶颈位置，特征分辨率最低，计算高效。

2025-06-02 16:17:10 367

原创海大学生分会和爱特工作室代表参加YEF2025

本届大会以“智辟新径”为主题，邀请了150余位来自高校、科研院所、企业的学者、专家，呈上了包括7个特邀报告、5个思想秀报告、2场大会论坛、1场大学生学术秀和22场专题论坛的科技盛宴。工作室成员参加了本次大会。此次参会收获颇丰，不仅学习到了前沿的学术知识，还与众多优秀的青年学者建立了联系，为今后的学术研究和个人发展积累了宝贵资源。中国海洋大学学生分会和爱特工作室代表参加了CCF学生分会主席会议，在“学生分会如何组织活动”、“提升学生领导力”的研讨活动中积极发表观点，与其他高校的学生分会代表深入交流与学习。

2025-05-28 21:49:54 218

原创 (aaai2025) Towards Open-Vocabulary Remote Sensing Image Semantic Segmentation

Open-Vocabulary 是一个比较火的话题，目前我找到最好的学习资料是 VALSE2024 上李冠彬老师的课程《开放词汇视觉感知》，视频链接：https://www.bilibili.com/video/BV1uf421d7Vk/ 三个多小时的课程系统的介绍了基于开放词汇的图像分类、目标检测、分割等任务。Zero-shot 是在别的类别（base）训练模型，可以识别没见过的类别（unseen），这里有一个严格的限制：unseen类别在训练时一定是不可见的。

2025-05-27 16:18:42 383

原创 (cvpr2025) OverLoCK: An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels

Top-down attention 有一个非常经典的例子，就是下面图像中的狗，人第一反应就是图中动物是狗，然后才注意到只是由斑点组成的。ContMix 的细节如下图所示，需要注意的是，输入的X包含Context Prior P和特征 Z。Dynamic Block的特点一方面是 Context Prior 的融合，另一方面是 Gated Dynamic Spatial Aggregator (GDSA) 的计算，其结构如下图所示，可以看出结构也非常简单，其核心在于 ContMix。

2025-05-27 15:26:10 653

原创 (NeurIPS2024) ECMamba

最终可以得到每个小框的平均激活频率，进而得到Fd 所示的激活响应图，其中激活频率高的区域代表重要的特征。模型框架如下图所示，首先通过Retinex estimator 得到三个分量，然后分别输入到两个 UNet 网络，最后两个网络结果合并得到修复的结果。(图中M_R网络是输入与输出做残差，M_L网络是中间与输出做残差，不清楚是画错了还是有特别处理，论文中没有说明)本文提出了一种新的扫描策略，根据激活的重要性进行排序进行扫描，先扫描重要区域，再扫描不重要区域。

2025-05-21 09:00:28 310

原创 (cvpr2025) Frequency Dynamic Convolution for Dense Image Prediction

本文介绍了频率动态卷积（FDConv），一种用于密集预测任务的新型卷积方法。FDConv旨在解决CondConv中卷积权值频域响应相似的问题，通过增加频率适应性来提升模型性能。FDConv包含三个主要模块：傅里叶分离权重（FDW）、核空间调制（KSM）和频带调制（FBM）。FDW通过在频率域上分组生成多个卷积核，KSM通过全局和局部分支融合这些卷积核，而FBM则在频域中对卷积结果进行加权。这些模块共同工作，使得FDConv能够更有效地捕获和处理不同频率的信息，从而在密集预测任务中实现更好的性能。

2025-05-19 17:40:22 954

原创 (NeurIPS2024) QuadMamba: Learning Quadtree-based Selective Scan for Visual State Space Model

粗粒度划分为4个窗口，细粒度划分为16个窗口。细粒度的16个窗口，又根据矩阵S选择了一个值最大的，因此最后实际使用的也是4个窗口。（如图中展示的，prediction得到2x2的矩阵，右下角的值最大，因此右下角那个窗口就用细粒度，其他的窗口就用粗粒度）具体计算方式可以参考论文中的公式解释。信息量大的token会跨越两个相邻的窗口，受 Swin Transformer 中移位窗口方案的思想。为此，作者提出了 QuadMamba，如下图所示，可以自适应的划分窗口，保留了二维局部性，同时可以提供更强的窗口信息。

2025-04-22 16:13:48 292

原创 (cvpr2025) LSNet: See Large, Focus Small

作者指出，人类视觉系统遵循两步机制：(1) 通过周边视觉的大视场感知（See large）捕捉全景。受人类视觉感知的启发，作者提出了 Large-Small （LS）卷积，使用大核静态卷积进行 large-field perception，使用小核动态卷积进行 Small-field aggregation。以 LS 卷积为基础，作者构建了轻量网络 LSNet，如上图(b)中所示，结构也比较简单。作者做了大量实验证明 LS 卷积的效果，可以参考作者论文，这里不过多介绍。

2025-04-21 14:56:29 886

原创 (cvpr2025) DFormerv2: Geometry Self-Attention for RGBD Semantic Segmentation

D和S的融合也非常关键，作者后面会进行实验验证。作者方法与当前模型的区别如下图所示，可以看出作者的 design focus 在于创建一个 Geometry Prior，将其注入RGB图像的encoder用于分配self-attention的注意力权重。通过将显式的几何先验嵌入到注意力计算中，对于query，根据几何关系抑制不相key-value对的权重，增强相关的权重，有利于对象内和对象间关系的建模。为此，作者对深度图构建了一个Geometry Prior，注入到RGB图像特征中，取得了非常好的效果。

2025-04-21 08:52:30 1111

原创 (aaai2025) Densely Connected Parameter-Efficient Tuning for Referring Image Segmentation

在大模型时代，各种 CV/NLP 的任务都在拥抱预训练+微调的范式，但是随着模型参数规模越来越大，在下游任务数据集上做全量微调的成本也越来越高，目前普遍采用的是 Parameter-Efficient Tuning（高效参数微调）。DA的结构如下图所示，图像特征使用多尺度卷积（D-MoC）处理，同时还使用cross attention融合文本特征。回到这个论文，作者解决的是指代分割任务（Referring Image Segmentation），如下图所示，对一个图片给出一行文本，把对应的目标分割出来。

2025-04-15 15:52:39 457

原创 (cvpr2025) EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

首先介绍HSM-SSD，影响复杂度的主要有三个变量：L是token数量，D是通道维度，N是状态数量。一般情况下，状态数量N要远远小于难道维度D（N<<D），同时，状态数量N也要远远小于token数量 L（N<<L）。VSSM中复杂度较高的部分已经标为红色，可以看出作者的改进主要是把三个标红的FC层去掉了，这样就降低了计算量。可以看出，去掉1号FC层后，生成h时需要矩阵和x相剩，作者直接用x_{in}做为替代。当然，论文里还有证明，说明HSM-SSD和VSSM是等价的，感兴趣可以参考原论文。

2025-04-14 20:44:15 377

原创 (cvpr2025) SCSegamba: Lightweight Structure-Aware Vision Mamba for Crack Segmentation in Structures

结构也非常简单，使用 MLP+ Dynamic upsampling 分别处理 F1,F2,F3,F4 ，将其尺寸恢复，然后使用 GBC + MLP 处理，得到分割结果。因此，做者提出了Diagnal snake扫描方法（图中绿色），可以更好地捕捉复杂的裂纹纹理特征（个人感觉这个有些牵强，或者举的例子并没有很好的证明这一点）。作者指出：在低对比度图像中，裂纹区域不规则，经常受到周围区域和阴影的影响，这对现有的视觉状态空间模型（VSSM）的扫描策略提出了挑战。2、门控机制，可以增强模型捕捉细节的能力。

2025-04-14 10:40:34 754

原创 Firefox缩小标签页高度以及自定义调整

新版的火狐标签页和地址栏太高了，比chrome和Edge都要高不少，有点浪费屏幕空间，不知道官方为什么这样设计。网上搜索，发现有一个紧凑模式，开了以后跟其他浏览器就一样高了，但是官方已经不建议使用。还可以使用该“定制工具栏” 功能，将 “书签” 拖到地址栏旁边，就可以使书签与地址栏在同一行，进一步节省空间了。转自：https://www.cnblogs.com/dirgo/p/17672716.html 有修改。

2025-03-03 15:05:25 1050

原创 (arxiv2411) TinyViM: Frequency Decoupling for Tiny Hybrid Vision Mamba

众所周知，深度神经网络的浅层主要是提取细节信息，深层主要是提取全局信息。因此，作者使用 Frequency Ramp Inception，就是随网络加深，逐渐增加低频成分的比例，提高性能。作者有一个消融实验，表明低频比例在四个阶段分别取 [0.25, 0.50, 0.50, 0.75]时性能较好。为了解决这个问题，即保留高频特征，作者使用拉普拉斯金字塔的方法来分解特征的高频和低频，低频部分使用Mamba处理，高频部分使用卷积处理。论文：https://arxiv.org/abs/2411.17473。

2025-02-16 22:57:56 451

原创使用豆包高效阅读论文

将论文PDF做为附件上传，总结论文的研究动机和创新点。可以得到下面的界面，左边是AI分析结果，右边是论文原文。每一处分析结果后面都有引用（图中标红的部分）。不是参考文献，是论文中的原话，击点即可直接转到论文中对应的位置。

2025-02-16 11:00:02 1140

原创 (arxiv2411) CARE Transformer

如图 2（b）所示，通过在通道维度上对特征进行解耦，输入无需经过所有的卷积和线性注意力操作。非对称解耦策略节省了学习局部归纳偏差和全局信息的计算成本，而跨特征交互可以灵活有效地利用所学特征中的信息。在 CARE block里，首先进行特征的 asymmetrical decoupling，即将输入特征从通道维度分为两部分，一部分进行线性注意力计算，另一部分进行卷积运算。我比较好奇用于 linear attention 和卷积两部分的特征比例是如何设置的，也许是我看不够仔细，论文里貌似没有介绍。

2025-02-16 09:42:35 381

原创 [eccv2024] HiT-SR: Hierarchical Transformer for Efficient Image Super-Resolution

作者指出，当前基于Transformer的超分辨率方法，需要在窗口里面计算注意力，但是窗口大了计算复杂度高，窗口小了感受野不够。为此作者提出了 HiT-SR 方法，分别在 block level 和 layer level 进行了改进（下图中标红的部分）。创新点2：作者构建了 spatial-channel correlation，如下图所示。把特征按通道分成两部分，然后分别在空间和通道做交叉注意力。创新点1：在 block level，作者构建了层次化的窗口，即窗口越来越大，如下图所示。

2025-01-08 18:55:12 229

原创 [eccv2024] Context-Guided Spatial Feature Reconstruction for Efficient Semantic Segmentation

输入特征尺寸为DxHxW，总体来看，经过一系列操作，得到Dx1的向量，对输入特征进行通道注意力运算。该模块的关键是Dx1向量的计算，中间作者定义了一个大小为CxD的动态原型，解释说：动态原型能够反映不同类别目标在每个图像中的分布，会根据输入数据的特点动态调整。模型的整体架构如下图所示，可以看出，RCM用于多尺度空间特征提取，包括注意力计算RCA和MLP两部分。作者认为，当前方法难以对边界进行建模和区分前景对象的类别，因此会出现边界分割不准确和误分类的问题。论文其他部分可以参考作者论文，这里不过多介绍。

2025-01-08 15:28:23 223

空空如也

空空如也