
论文推介
文章平均质量分 67
新最科研论文推荐与介绍
科研狗@OUC
中国海洋大学计算机学院教师
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
(iccv2025) TinyViM: Frequency Decoupling for Tiny Hybrid Vision Mamba
TinyViM提出了一种频率解耦的混合视觉Mamba模型,通过Laplace Mixer模块有效平衡高低频特征提取。该方法采用渐进式融合策略(Frequency Ramp Inception),浅层偏重卷积特征,深层侧重Mamba特征。核心创新是将特征通过池化差分分解为低频(池化部分)和高频(差分部分),解决了传统Mamba偏重低频特征的问题。实验表明,该框架在保持轻量化的同时提升了特征表达能力。代码已开源,模型包含四个阶段,每阶段由局部卷积块和TinyViM块组成。原创 2025-07-12 07:37:58 · 404 阅读 · 0 评论 -
(cvpr2025) GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model
本文提出GroupMamba,一种参数高效且准确的视觉状态空间模型。针对VMamba复杂度高的问题,作者设计了调制分组Mamba层,受分组卷积启发将特征分为四组分别扫描后拼接。为增强组间交互,提出通道亲和力调制模块(CAM)进行通道加权。针对大模型训练不稳定性,采用知识蒸馏提升性能。实验验证了方法的有效性。代码已开源。原创 2025-07-07 10:07:45 · 165 阅读 · 0 评论 -
(aaai25) EfficientVMamba: Atrous Selective Scan for Light Weight Visual Mamba
本文提出EfficientVMamba模型,通过改进扫描策略降低计算复杂度。作者设计ES2D方法,采用步长2的间隔扫描,将序列长度缩减为1/4。为弥补局部性损失,引入双路径模块:一个路径保持间隔扫描,另一路径使用卷积,并用通道注意力动态融合。实验表明该设计有效平衡了效率与性能。此外,深层采用MobileNetV2的倒残差块可提升效果。该方法显著降低了VMamba的计算负担,同时保持了模型性能。原创 2025-07-07 09:18:44 · 426 阅读 · 0 评论 -
(AAAI2025) TimeCMA:LLM赋能时序预测
本文提出TimeCMA模型,通过跨模态对齐实现大语言模型(LLM)赋能的多元时间序列预测。针对现有方法直接将时序数据与文本特征拼接导致信息混杂的问题,作者创新性地设计LLM-Empowered编码模块,将时序数据转化为包含时间和数值信息的文本提示,经GPT-2处理提取最具代表性的最后一个token特征。模型采用双模态编码和跨模态注意力融合架构,有效提升了预测性能。实验结果表明该方法优于传统拼接方式,为时序分析与LLM结合提供了新思路。代码已开源。原创 2025-07-04 07:24:39 · 313 阅读 · 0 评论 -
(tpami2025) Low-Resolution Self-Attention for Semantic Segmentation
摘要:论文《Low-Resolution Self-Attention for Semantic Segmentation》提出了一种高效的自注意力机制LRSA,通过将QKV下采样至固定尺寸(如16x16)计算注意力,显著降低计算量。为弥补局部细节损失,作者并行引入3x3深度可分离卷积捕获高分辨率特征。该方法在保持性能的同时优化了计算效率,实验表明16x16下采样尺寸效果最佳。代码已开源。原创 2025-07-04 05:58:08 · 257 阅读 · 0 评论 -
(cvpr2025) DarkIR: Robust Low-Light Image Restoration
《DarkIR:鲁棒性低光图像恢复方法》提出了一种联合处理去噪、去模糊和低光增强的统一框架。该模型采用UNet结构,前半部分使用EBlock(基于频率域特征建模)进行光照校正,后半部分采用DBlock(多尺度大核卷积)处理去模糊任务。EBlock通过FFT变换到频域处理幅值信息,再转换回空间域;DBlock则通过多尺度大核卷积提升图像清晰度。该方法突破了传统单独处理各任务的局限,实现了端到端的低光图像恢复。代码已开源。原创 2025-07-03 21:12:30 · 394 阅读 · 0 评论 -
(ICLR2025) Differential Transformer
本文提出Diff Transformer模型,针对传统Transformer易受噪声干扰的问题进行改进。通过生成两组独立的Q、K矩阵并计算其注意力矩阵差值,该方法有效过滤无关上下文。实验证明该模型能显著减少问答任务中的幻觉现象。这种简单而创新的差分机制为注意力计算提供了新思路,在NLP和CV领域具有应用潜力。代码已开源。原创 2025-06-24 14:22:38 · 120 阅读 · 0 评论 -
(cvpr2025) DefMamba: Deformable Visual State Space Model
Deformable SSM 的架构如下图所示,是典型的VMamba结构,不同的是除了普通的正向扫描和反向扫描,作者添加了一个Deformable扫描。为此,提出了DefMamba模型,通过可变形扫描策略动态调整扫描路径,优先关注重要信息,解决了空间结构信息丢失问题,显著提升了图像分类、目标检测和分割等任务的性能。黄色到绿色代表扫描顺序。模型整体框架如下图所示,是典型的VIT四阶段结构,核心创新点在 Deformable SSM 这里,本质是将 Deformable conv 引入了 Mamba。原创 2025-06-23 22:36:00 · 339 阅读 · 0 评论 -
(aaai2025) SparseViT: 用于图像篡改检测的Spare-Coding Transformer
SparseViT提出了一种基于稀疏编码Transformer的图像篡改检测新方法。不同于现有语义分割主导的模型,该方法采用稀疏自注意力机制(稀疏率S=8,4,2,1)在非重叠patch内计算全局注意力,有效捕捉篡改相关的边缘特征。模型包含卷积阶段(阶段1-2)和稀疏Transformer阶段(阶段3-4),并通过可学习特征融合模块(LFF)自适应融合多尺度特征。实验表明稀疏注意力能更好地聚焦于操作痕迹而非语义区域。代码已开源。原创 2025-06-22 10:22:30 · 359 阅读 · 0 评论 -
(iclr2025) Spatial-Mamba: Effective Visual State Space Models via Structure-aware State Fusion
《Spatial-Mamba: 通过结构感知状态融合提升视觉状态空间模型》提出了一种改进视觉建模的新方法。针对现有状态空间模型(SSMs)在图像处理时将2D数据展平为1D序列导致空间信息丢失的问题,作者设计了Spatial-Mamba模型。其核心创新是structure-aware state fusion(SASF)模块,通过膨胀卷积对邻近状态进行重加权与融合,有效增强空间关系建模能力。实验表明,相比原始Mamba和线性注意力机制,该方法不仅扩展了上下文建模范围,还能识别远距离相关区域。可视化结果证实Sp原创 2025-06-22 08:41:23 · 317 阅读 · 0 评论 -
(cvpr2025) Adaptive Rectangular Convolution for Remote Sensing Pansharpening
传统的固定形状卷积核(如 3x3 或 5x5)无法有效地捕捉这些不同尺度的特征,而ARConv通过自适应调整卷积核的形状,能够更好地提取每个局部区域的特征。为了解决这两个问题,作者提出了 ARConv (Adaptive Rectangular Convolution),与当前方法的比较如下图所示,最大的变化是窗口可以变成3x5这样的形状,这个尺寸是通过网络学出来的。作者认为现有的基于CNN的方法中,传统的卷积存在两个问题:问题1,卷积被限制在一个固定的方形窗口内。问题2,采样点的个数是预设的,保持不变。原创 2025-06-16 14:15:38 · 562 阅读 · 0 评论 -
(cvpr2025) MobileMamba
作者设计了一个高效的Multi-Receptive FieldFeature Interaction (MRFFI)模块,如下图所示。论文:(cvpr2025)MobileMamba: Lightweight Multi-Receptive Visual Mamba。通过MRFFI获得的特征集成了全局和局部感受野的信息,增强了高频边缘细节的提取。实验部分可以参考作者论文,这里不过多介绍。Network 代码:https://github.com/lewandofskee/MobileMamba。原创 2025-06-13 15:50:43 · 236 阅读 · 0 评论 -
(ACMMM 2024) RainMamba: Enhanced Locality Learning with State Space Models for Video Deraining
将修复图像黄色星号区域的patch做为 anchor,相邻帧里该区域周围的patch做为正样本,相邻帧里与该区域距离远的patch做为负样本,然后进行对比学习。RainMamba的网络的整体架构如下图所示,是 encoder-decoder结构,中间有若干Coarse-to-Fine Mamba (CFM),包括全局Mamba块和局部Mamba块两种。考虑到一个 patch 与同一帧和后续帧中的相邻 patch 具有相似性,作者提出了一种差异引导的动态对比局部学习策略来保持patch级的语义信息。原创 2025-06-03 13:46:12 · 383 阅读 · 0 评论 -
(cvpr2025) MaIR: A Locality- and Continuity-Preserving Mamba for Image Restoration
作者提出了MaIR模型,提出了Nested S-shaped Scanning strategy (NSS),与当前方法的比较如下图所示。作者的MaIR方法将图像划分为多个不重叠的条带,在条带内和条带间采用s型扫描路径,SSA的细节如下图所示。对4个扫描路径得到的序列进行聚合,这样能够捕获不同序列之间的复杂依赖关系,更好地利用来自不同扫描方向的互补信息。4个方向的特征首先进行池化,然后进行shuffle,接着进行分组卷积,使用unshuffle恢复,最后重新组合成注意力权重,分别对4个方向特征进行加权。原创 2025-06-03 08:18:10 · 509 阅读 · 0 评论 -
(cvpr2025) SegMAN: 基于状态空间模型和局部注意力全尺度上下文建模语义分割
本文提出SegMAN网络,通过结合状态空间模型和局部注意力机制实现语义分割中的全尺度上下文建模。针对现有方法难以同时兼顾全局上下文、局部细节和多尺度特征的不足,该网络采用双创新设计:编码器使用LASS模块(局部注意力与状态空间串联)提取特征,解码器引入MMSCopE模块(基于Mamba的多尺度特征融合)。实验表明,该方法能有效扩大感受野并提升细节分割效果,在典型编解码架构中实现了全局建模、局部编码与多尺度表征的统一。代码已开源。原创 2025-06-03 06:14:56 · 409 阅读 · 0 评论 -
(aaai2025) Towards Open-Vocabulary Remote Sensing Image Semantic Segmentation
Open-Vocabulary 是一个比较火的话题,目前我找到最好的学习资料是 VALSE2024 上李冠彬老师的课程《开放词汇视觉感知》,视频链接:https://www.bilibili.com/video/BV1uf421d7Vk/ 三个多小时的课程系统的介绍了基于开放词汇的图像分类、目标检测、分割等任务。Zero-shot 是在别的类别(base)训练模型,可以识别没见过的类别(unseen),这里有一个严格的限制:unseen类别在训练时一定是不可见的。原创 2025-05-27 16:18:42 · 374 阅读 · 0 评论 -
(cvpr2025) OverLoCK: An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels
Top-down attention 有一个非常经典的例子,就是下面图像中的狗,人第一反应就是图中动物是狗,然后才注意到只是由斑点组成的。ContMix 的细节如下图所示,需要注意的是,输入的X包含Context Prior P和特征 Z。Dynamic Block的特点一方面是 Context Prior 的融合,另一方面是 Gated Dynamic Spatial Aggregator (GDSA) 的计算,其结构如下图所示,可以看出结构也非常简单,其核心在于 ContMix。原创 2025-05-27 15:26:10 · 630 阅读 · 0 评论 -
(NeurIPS2024) ECMamba
最终可以得到每个小框的平均激活频率,进而得到Fd 所示的激活响应图,其中激活频率高的区域代表重要的特征。模型框架如下图所示,首先通过Retinex estimator 得到三个分量,然后分别输入到两个 UNet 网络,最后两个网络结果合并得到修复的结果。(图中M_R网络是输入与输出做残差,M_L网络是中间与输出做残差,不清楚是画错了还是有特别处理,论文中没有说明)本文提出了一种新的扫描策略,根据激活的重要性进行排序进行扫描,先扫描重要区域,再扫描不重要区域。原创 2025-05-21 09:00:28 · 307 阅读 · 0 评论 -
(cvpr2025) Frequency Dynamic Convolution for Dense Image Prediction
本文介绍了频率动态卷积(FDConv),一种用于密集预测任务的新型卷积方法。FDConv旨在解决CondConv中卷积权值频域响应相似的问题,通过增加频率适应性来提升模型性能。FDConv包含三个主要模块:傅里叶分离权重(FDW)、核空间调制(KSM)和频带调制(FBM)。FDW通过在频率域上分组生成多个卷积核,KSM通过全局和局部分支融合这些卷积核,而FBM则在频域中对卷积结果进行加权。这些模块共同工作,使得FDConv能够更有效地捕获和处理不同频率的信息,从而在密集预测任务中实现更好的性能。原创 2025-05-19 17:40:22 · 905 阅读 · 0 评论 -
(NeurIPS2024) QuadMamba: Learning Quadtree-based Selective Scan for Visual State Space Model
粗粒度划分为4个窗口,细粒度划分为16个窗口。细粒度的16个窗口,又根据矩阵S选择了一个值最大的,因此最后实际使用的也是4个窗口。(如图中展示的,prediction得到2x2的矩阵,右下角的值最大,因此右下角那个窗口就用细粒度,其他的窗口就用粗粒度)具体计算方式可以参考论文中的公式解释。信息量大的token会跨越两个相邻的窗口,受 Swin Transformer 中移位窗口方案的思想。为此,作者提出了 QuadMamba,如下图所示,可以自适应的划分窗口,保留了二维局部性,同时可以提供更强的窗口信息。原创 2025-04-22 16:13:48 · 289 阅读 · 0 评论 -
(cvpr2025) LSNet: See Large, Focus Small
作者指出,人类视觉系统遵循两步机制:(1) 通过周边视觉的大视场感知(See large)捕捉全景。受人类视觉感知的启发,作者提出了 Large-Small (LS)卷积,使用大核静态卷积进行 large-field perception,使用小核动态卷积进行 Small-field aggregation。以 LS 卷积为基础,作者构建了轻量网络 LSNet,如上图(b)中所示,结构也比较简单。作者做了大量实验证明 LS 卷积的效果,可以参考作者论文,这里不过多介绍。原创 2025-04-21 14:56:29 · 818 阅读 · 0 评论 -
(cvpr2025) DFormerv2: Geometry Self-Attention for RGBD Semantic Segmentation
D和S的融合也非常关键,作者后面会进行实验验证。作者方法与当前模型的区别如下图所示,可以看出作者的 design focus 在于创建一个 Geometry Prior,将其注入RGB图像的encoder用于分配self-attention的注意力权重。通过将显式的几何先验嵌入到注意力计算中,对于query,根据几何关系抑制不相key-value对的权重,增强相关的权重,有利于对象内和对象间关系的建模。为此,作者对深度图构建了一个Geometry Prior,注入到RGB图像特征中,取得了非常好的效果。原创 2025-04-21 08:52:30 · 1071 阅读 · 0 评论 -
(aaai2025) Densely Connected Parameter-Efficient Tuning for Referring Image Segmentation
在大模型时代,各种 CV/NLP 的任务都在拥抱预训练+微调的范式,但是随着模型参数规模越来越大,在下游任务数据集上做全量微调的成本也越来越高,目前普遍采用的是 Parameter-Efficient Tuning(高效参数微调)。DA的结构如下图所示,图像特征使用多尺度卷积(D-MoC)处理,同时还使用cross attention融合文本特征。回到这个论文,作者解决的是 指代分割任务(Referring Image Segmentation),如下图所示,对一个图片给出一行文本,把对应的目标分割出来。原创 2025-04-15 15:52:39 · 450 阅读 · 0 评论 -
(cvpr2025) EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality
首先介绍HSM-SSD,影响复杂度的主要有三个变量:L是token数量,D是通道维度,N是状态数量。一般情况下,状态数量N要远远小于难道维度D(N<<D),同时,状态数量N也要远远小于token数量 L(N<<L)。VSSM中复杂度较高的部分已经标为红色,可以看出作者的改进主要是把三个标红的FC层去掉了,这样就降低了计算量。可以看出,去掉1号FC层后,生成h时需要矩阵和x相剩,作者直接用x_{in}做为替代。当然,论文里还有证明,说明HSM-SSD和VSSM是等价的,感兴趣可以参考原论文。原创 2025-04-14 20:44:15 · 360 阅读 · 0 评论 -
(cvpr2025) SCSegamba: Lightweight Structure-Aware Vision Mamba for Crack Segmentation in Structures
结构也非常简单,使用 MLP+ Dynamic upsampling 分别处理 F1,F2,F3,F4 ,将其尺寸恢复,然后使用 GBC + MLP 处理,得到分割结果。因此,做者提出了Diagnal snake扫描方法(图中绿色),可以更好地捕捉复杂的裂纹纹理特征(个人感觉这个有些牵强,或者举的例子并没有很好的证明这一点)。作者指出:在低对比度图像中,裂纹区域不规则,经常受到周围区域和阴影的影响,这对现有的视觉状态空间模型(VSSM)的扫描策略提出了挑战。2、门控机制,可以增强模型捕捉细节的能力。原创 2025-04-14 10:40:34 · 715 阅读 · 0 评论 -
(arxiv2411) TinyViM: Frequency Decoupling for Tiny Hybrid Vision Mamba
众所周知,深度神经网络的浅层主要是提取细节信息,深层主要是提取全局信息。因此,作者使用 Frequency Ramp Inception,就是随网络加深,逐渐增加低频成分的比例,提高性能。作者有一个消融实验,表明低频比例在四个阶段分别取 [0.25, 0.50, 0.50, 0.75]时性能较好。为了解决这个问题,即保留高频特征,作者使用拉普拉斯金字塔的方法来分解特征的高频和低频,低频部分使用Mamba处理,高频部分使用卷积处理。论文:https://arxiv.org/abs/2411.17473。原创 2025-02-16 22:57:56 · 436 阅读 · 0 评论 -
(arxiv2411) CARE Transformer
如图 2(b)所示,通过在通道维度上对特征进行解耦,输入无需经过所有的卷积和线性注意力操作。非对称解耦策略节省了学习局部归纳偏差和全局信息的计算成本,而跨特征交互可以灵活有效地利用所学特征中的信息。在 CARE block里,首先进行特征的 asymmetrical decoupling,即将输入特征从通道维度分为两部分,一部分进行线性注意力计算,另一部分进行卷积运算。我比较好奇用于 linear attention 和 卷积 两部分的特征比例是如何设置的,也许是我看不够仔细,论文里貌似没有介绍。原创 2025-02-16 09:42:35 · 378 阅读 · 0 评论 -
[eccv2024] HiT-SR: Hierarchical Transformer for Efficient Image Super-Resolution
作者指出,当前基于Transformer的超分辨率方法,需要在窗口里面计算注意力,但是窗口大了计算复杂度高,窗口小了感受野不够。为此作者提出了 HiT-SR 方法,分别在 block level 和 layer level 进行了改进(下图中标红的部分)。创新点2:作者构建了 spatial-channel correlation,如下图所示。把特征按通道分成两部分,然后分别在空间和通道做交叉注意力。创新点1:在 block level,作者构建了层次化的窗口,即窗口越来越大,如下图所示。原创 2025-01-08 18:55:12 · 222 阅读 · 0 评论 -
[eccv2024] Context-Guided Spatial Feature Reconstruction for Efficient Semantic Segmentation
输入特征尺寸为DxHxW,总体来看,经过一系列操作,得到Dx1的向量,对输入特征进行通道注意力运算。该模块的关键是Dx1向量的计算,中间作者定义了一个大小为CxD的动态原型,解释说:动态原型能够反映不同类别目标在每个图像中的分布,会根据输入数据的特点动态调整。模型的整体架构如下图所示,可以看出,RCM用于多尺度空间特征提取,包括注意力计算RCA和MLP两部分。作者认为,当前方法难以对边界进行建模和区分前景对象的类别,因此会出现边界分割不准确和误分类的问题。论文其他部分可以参考作者论文,这里不过多介绍。原创 2025-01-08 15:28:23 · 217 阅读 · 0 评论 -
(aaai2025) FD2-Net: Frequency-Driven Feature Decomposition Network
这个论文核心思想认为:多源融合目标检测方法忽略了频率上的互补特征,如可见光图像中丰富的高频细节和红外图像中有价值的低频热信息,从而限制了检测性能。作者的思路是(如下图中的II所示),分别对可见光和红外图像提取高频、低频特征,将二者重新耦合。为此,作者提出了Frequency-Driven Feature Decomposition Network (FD2Net),如下图所示,包括三个部分:特征分解编码器,多模态重建,多尺度检测头。网络特点是,一方面要重建,另一方面要检测。原创 2024-12-24 22:23:51 · 580 阅读 · 0 评论 -
(aaai2024) Transformer-based Selective Super-Resolution for Efficient Image Refinement
作者提出 selective super-resolution 模型,输入图像分为不重叠的块,并通过 Tile Selection (TS) 分为目标与背景两类。不包含目标的块叫 negative tile,使用浅层网络进行重建。那么问题来了,怎么确定哪个块是目标区域,哪个块是背景区域呢?作者在特征提取网络后面加入了一个 Gumbel-Softmax layer 进行二分类,同时也保证了网络可以反向传播。因为没有做过超分,我有一个疑问,那就是这样分块操作,会不会产生拼接缝?原创 2024-12-24 20:53:15 · 190 阅读 · 0 评论 -
【TGRS2024】Pick of the Bunch: Detecting Infrared Small Targets
(2) 线性挤压计算:传统的注意力机制利用类似于SENet和PVT中的池化操作,会将目标特征与背景噪声合并,稀释了目标特征。可以看出类似一个 encoder-decoder 架构,在 encoder部分,DDC和SeRank 交替处理,在decoder部分,使用 LSFF融合特征。框架包括 DDC,SeRank,LSFF 三个关键模块,分别解决了上述三个问题,下面将分别介绍。作者提出的方法,类似于挑剔的鉴赏家,“挑选精华”——利用高度敏感的特征提取器来保留即使是最暗淡的目标,同时采用可靠的模块来过滤虚警。原创 2024-11-08 07:25:11 · 406 阅读 · 0 评论 -
(arxiv2408) HSR-KAN: Efficient Hyperspectral Image Super-Resolution via Kolmogorov-Arnold Networks
该论文提出了一种基于KAN的高光谱图像超分辨率方法,主要贡献包括:(1)提出了一个融合 LR-HSI 和 HR-MSI 的模块,称为 KAN-Fusion,通过引入 KAN,可以很好地融合光谱特征与空间纹理特征。(2)提出了KAN Channel Attention Block (KAN-CAB)模块对融合后的光谱特征进行建模,通过通道注意力,利用KAN的优势,避免了Curse of Dimensionality。代码地址:https://github.com/Baisonm-Li/H。原创 2024-11-08 07:23:16 · 229 阅读 · 0 评论 -
【eccv2024】Frequency-Spatial Entanglement Learning for Camouflaged Object Detection
可以看出,该框架核心是 ETB 模块,其结构如下图所示。(1)提出了一个 Frequency-Spatial Entanglement Learning (FSEL) 框架,该框架利用全局频率和局部空间特征来增强伪装对象的检测。论文的总体框架如下图所示,总体类似一个 U-Net 架构,JDPM用来处理高层特征,ETB 对远程关系进行建模,并对初始特征的频域和空间域进行 entangle 学习。在EFFN中,作者加入了频率域操作,作者解释是空间和频率域的 entangle 学习可以获取更强的特征表示。原创 2024-11-08 07:21:44 · 328 阅读 · 0 评论 -
【TMM2024】Frequency-Guided Spatial Adaptation for Camouflaged Object Detection
因此,作者考虑在 adaptor 中加入频率域信息,论文的主要工作为设计了一个频率引导的空间注意模块( frequency-guided spatial attention module),使预训练的基础模型从空间域适应,同时由自适应调整的频率分量引导,更多地关注伪装区域。核心思路是把FFT变换以后的频率特征,拆分为一个个独立的 patch,给各个 patch 添加注意力。从图中可以看出,FBNM模块用于patch embedding之后,多使用卷积,获取目标与背景的细微差别。原创 2024-11-08 07:20:29 · 609 阅读 · 0 评论 -
【ACMMM2024】Multi-Scale and Detail-Enhanced Segment Anything Model for Salient Object Detection
因此,作者构建建的目标是增强低频信息,利用增强的低频信息调整高频信息,节省计算资源。作者的改进主要是加入了小波变换,同时设计了两个关键模块:low-frequency state space block (LFSSBlock) 和 high-frequency enhance block (HFEBlock),下面将分别介绍。特征经过DWT以后,低频部分输入到LFSS,是一个典型的 attention+FFN 的结构,只不过 attention 部分使用 SSM 替换。原创 2024-08-29 08:12:27 · 687 阅读 · 0 评论 -
【ACMMM2024】Multi-Scale and Detail-Enhanced Segment Anything Model for Salient Object Detection
论文:https://arxiv.org/pdf/2408.04326代码:https://github.com/BellyBeauty/MDSAM网络的整体架构如下图所示,关键模块是标红的部分,下面分别进行介绍。原创 2024-08-28 13:15:14 · 751 阅读 · 0 评论 -
【IJCAI2024】LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens
为此,作者提出了下图所示的框架。值得注意的是,网络的浅层使用的是cross-attention,深层使用的是自注意力(作者解释是自注意力的性能更高)。自然图像上的实验结果表明,学习到的 meta token 可以很好地关注图像中的目标,有助于提高分类精度。由于相邻像素和图像块之间的高度相关性,以及遥感图像中纹理和模式的重复性质,存在大量的空间冗余。如下图所示,ViT 中的自注意力机制计算每两个图像块之间的相似性,相似的token对特征表示的贡献很小,但消耗了大量的计算负载,影响了模型性能。原创 2024-06-28 22:04:46 · 645 阅读 · 0 评论 -
(arxiv2401) CrossMAE
MAE在decoder重建时,将 unmask 的 token恢复到图像中,整体进行self-attention计算,作者认为 masked token 彼此间也进行了attention计算,是没有必要的。所以,作者进行了改进,在解码器中将masked token 做为Q,unmasked token做为KV,进行cross attention计算。不过,这个改进并没有刻意的在引言里强调。论文主要探讨了在MAE的解码中,图像patch之间的依赖性,并提出了一种新的预训练框架 CrossMAE。原创 2024-04-05 20:23:11 · 430 阅读 · 0 评论 -
(arxiv2401) ClassWise-SAM-Adapter
task specific input module,本质就是加入了图像的低频信息,作者认为可以提供足够的土地覆盖特征信息,以增强分割性能。注意先是给每一层使用MLP生成特征,然后有一个共享的MLP继续对特征处理。首先介绍 adaptor,如下图所示,就是在每个 attention后面加了一个 MLP,同时在 layer norm 后面也加了一个MLP。这是第一个将SAM应用于SAR图像分割的工作。Class-wise mask decoder理解也不困难,就是把二分类改为了多分类。原创 2024-04-05 20:17:46 · 578 阅读 · 0 评论