自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(133)
  • 收藏
  • 关注

原创 (ACMMM 2024) RainMamba: Enhanced Locality Learning with State Space Models for Video Deraining

将修复图像黄色星号区域的patch做为 anchor,相邻帧里该区域周围的patch做为正样本,相邻帧里与该区域距离远的patch做为负样本,然后进行对比学习。RainMamba的网络的整体架构如下图所示,是 encoder-decoder结构,中间有若干Coarse-to-Fine Mamba (CFM),包括全局Mamba块和局部Mamba块两种。考虑到一个 patch 与同一帧和后续帧中的相邻 patch 具有相似性,作者提出了一种差异引导的动态对比局部学习策略来保持patch级的语义信息。

2025-06-03 13:46:12 343

原创 (cvpr2025) MaIR: A Locality- and Continuity-Preserving Mamba for Image Restoration

作者提出了MaIR模型,提出了Nested S-shaped Scanning strategy (NSS),与当前方法的比较如下图所示。作者的MaIR方法将图像划分为多个不重叠的条带,在条带内和条带间采用s型扫描路径,SSA的细节如下图所示。对4个扫描路径得到的序列进行聚合,这样能够捕获不同序列之间的复杂依赖关系,更好地利用来自不同扫描方向的互补信息。4个方向的特征首先进行池化,然后进行shuffle,接着进行分组卷积,使用unshuffle恢复,最后重新组合成注意力权重,分别对4个方向特征进行加权。

2025-06-03 08:18:10 399

原创 (cvpr2025) SegMAN: 基于状态空间模型和局部注意力全尺度上下文建模语义分割

本文提出SegMAN网络,通过结合状态空间模型和局部注意力机制实现语义分割中的全尺度上下文建模。针对现有方法难以同时兼顾全局上下文、局部细节和多尺度特征的不足,该网络采用双创新设计:编码器使用LASS模块(局部注意力与状态空间串联)提取特征,解码器引入MMSCopE模块(基于Mamba的多尺度特征融合)。实验表明,该方法能有效扩大感受野并提升细节分割效果,在典型编解码架构中实现了全局建模、局部编码与多尺度表征的统一。代码已开源。

2025-06-03 06:14:56 273

原创 (aaai2024) Omni-Kernel Network for Image Restoration

其中,局部分支( 1x1 的卷积)和大核卷积分支( 63x63 的大核卷积)如图所示,比较简单。在DCAM中,首先计算频率域的 channel attention,然后计算一个空间域的 channel attention。研究动机:作者认为Transformer模型计算复杂度太高,因此提出了 omni-kernel module (OKM),可以有效的学习局部到全局的特征表示。整体网络架构比较简单,就是非常简单的encoder-decoder结构,OKM插入在网络瓶颈位置,特征分辨率最低,计算高效。

2025-06-02 16:17:10 247

原创 海大学生分会和爱特工作室代表参加YEF2025

本届大会以“智辟新径”为主题,邀请了150余位来自高校、科研院所、企业的学者、专家,呈上了包括7个特邀报告、5个思想秀报告、2场大会论坛、1场大学生学术秀和22场专题论坛的科技盛宴。工作室成员参加了本次大会。此次参会收获颇丰,不仅学习到了前沿的学术知识,还与众多优秀的青年学者建立了联系,为今后的学术研究和个人发展积累了宝贵资源。中国海洋大学学生分会和爱特工作室代表参加了CCF学生分会主席会议,在“学生分会如何组织活动”、“提升学生领导力”的研讨活动中积极发表观点,与其他高校的学生分会代表深入交流与学习。

2025-05-28 21:49:54 172

原创 (aaai2025) Towards Open-Vocabulary Remote Sensing Image Semantic Segmentation

Open-Vocabulary 是一个比较火的话题,目前我找到最好的学习资料是 VALSE2024 上李冠彬老师的课程《开放词汇视觉感知》,视频链接:https://www.bilibili.com/video/BV1uf421d7Vk/ 三个多小时的课程系统的介绍了基于开放词汇的图像分类、目标检测、分割等任务。Zero-shot 是在别的类别(base)训练模型,可以识别没见过的类别(unseen),这里有一个严格的限制:unseen类别在训练时一定是不可见的。

2025-05-27 16:18:42 345

原创 (cvpr2025) OverLoCK: An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels

Top-down attention 有一个非常经典的例子,就是下面图像中的狗,人第一反应就是图中动物是狗,然后才注意到只是由斑点组成的。ContMix 的细节如下图所示,需要注意的是,输入的X包含Context Prior P和特征 Z。Dynamic Block的特点一方面是 Context Prior 的融合,另一方面是 Gated Dynamic Spatial Aggregator (GDSA) 的计算,其结构如下图所示,可以看出结构也非常简单,其核心在于 ContMix。

2025-05-27 15:26:10 534

原创 (NeurIPS2024) ECMamba

最终可以得到每个小框的平均激活频率,进而得到Fd 所示的激活响应图,其中激活频率高的区域代表重要的特征。模型框架如下图所示,首先通过Retinex estimator 得到三个分量,然后分别输入到两个 UNet 网络,最后两个网络结果合并得到修复的结果。(图中M_R网络是输入与输出做残差,M_L网络是中间与输出做残差,不清楚是画错了还是有特别处理,论文中没有说明)本文提出了一种新的扫描策略,根据激活的重要性进行排序进行扫描,先扫描重要区域,再扫描不重要区域。

2025-05-21 09:00:28 285

原创 (cvpr2025) Frequency Dynamic Convolution for Dense Image Prediction

本文介绍了频率动态卷积(FDConv),一种用于密集预测任务的新型卷积方法。FDConv旨在解决CondConv中卷积权值频域响应相似的问题,通过增加频率适应性来提升模型性能。FDConv包含三个主要模块:傅里叶分离权重(FDW)、核空间调制(KSM)和频带调制(FBM)。FDW通过在频率域上分组生成多个卷积核,KSM通过全局和局部分支融合这些卷积核,而FBM则在频域中对卷积结果进行加权。这些模块共同工作,使得FDConv能够更有效地捕获和处理不同频率的信息,从而在密集预测任务中实现更好的性能。

2025-05-19 17:40:22 775

原创 (NeurIPS2024) QuadMamba: Learning Quadtree-based Selective Scan for Visual State Space Model

粗粒度划分为4个窗口,细粒度划分为16个窗口。细粒度的16个窗口,又根据矩阵S选择了一个值最大的,因此最后实际使用的也是4个窗口。(如图中展示的,prediction得到2x2的矩阵,右下角的值最大,因此右下角那个窗口就用细粒度,其他的窗口就用粗粒度)具体计算方式可以参考论文中的公式解释。信息量大的token会跨越两个相邻的窗口,受 Swin Transformer 中移位窗口方案的思想。为此,作者提出了 QuadMamba,如下图所示,可以自适应的划分窗口,保留了二维局部性,同时可以提供更强的窗口信息。

2025-04-22 16:13:48 267

原创 (cvpr2025) LSNet: See Large, Focus Small

作者指出,人类视觉系统遵循两步机制:(1) 通过周边视觉的大视场感知(See large)捕捉全景。受人类视觉感知的启发,作者提出了 Large-Small (LS)卷积,使用大核静态卷积进行 large-field perception,使用小核动态卷积进行 Small-field aggregation。以 LS 卷积为基础,作者构建了轻量网络 LSNet,如上图(b)中所示,结构也比较简单。作者做了大量实验证明 LS 卷积的效果,可以参考作者论文,这里不过多介绍。

2025-04-21 14:56:29 539

原创 (cvpr2025) DFormerv2: Geometry Self-Attention for RGBD Semantic Segmentation

D和S的融合也非常关键,作者后面会进行实验验证。作者方法与当前模型的区别如下图所示,可以看出作者的 design focus 在于创建一个 Geometry Prior,将其注入RGB图像的encoder用于分配self-attention的注意力权重。通过将显式的几何先验嵌入到注意力计算中,对于query,根据几何关系抑制不相key-value对的权重,增强相关的权重,有利于对象内和对象间关系的建模。为此,作者对深度图构建了一个Geometry Prior,注入到RGB图像特征中,取得了非常好的效果。

2025-04-21 08:52:30 968

原创 (aaai2025) Densely Connected Parameter-Efficient Tuning for Referring Image Segmentation

在大模型时代,各种 CV/NLP 的任务都在拥抱预训练+微调的范式,但是随着模型参数规模越来越大,在下游任务数据集上做全量微调的成本也越来越高,目前普遍采用的是 Parameter-Efficient Tuning(高效参数微调)。DA的结构如下图所示,图像特征使用多尺度卷积(D-MoC)处理,同时还使用cross attention融合文本特征。回到这个论文,作者解决的是 指代分割任务(Referring Image Segmentation),如下图所示,对一个图片给出一行文本,把对应的目标分割出来。

2025-04-15 15:52:39 435

原创 (cvpr2025) EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

首先介绍HSM-SSD,影响复杂度的主要有三个变量:L是token数量,D是通道维度,N是状态数量。一般情况下,状态数量N要远远小于难道维度D(N<<D),同时,状态数量N也要远远小于token数量 L(N<<L)。VSSM中复杂度较高的部分已经标为红色,可以看出作者的改进主要是把三个标红的FC层去掉了,这样就降低了计算量。可以看出,去掉1号FC层后,生成h时需要矩阵和x相剩,作者直接用x_{in}做为替代。当然,论文里还有证明,说明HSM-SSD和VSSM是等价的,感兴趣可以参考原论文。

2025-04-14 20:44:15 276

原创 (cvpr2025) SCSegamba: Lightweight Structure-Aware Vision Mamba for Crack Segmentation in Structures

结构也非常简单,使用 MLP+ Dynamic upsampling 分别处理 F1,F2,F3,F4 ,将其尺寸恢复,然后使用 GBC + MLP 处理,得到分割结果。因此,做者提出了Diagnal snake扫描方法(图中绿色),可以更好地捕捉复杂的裂纹纹理特征(个人感觉这个有些牵强,或者举的例子并没有很好的证明这一点)。作者指出:在低对比度图像中,裂纹区域不规则,经常受到周围区域和阴影的影响,这对现有的视觉状态空间模型(VSSM)的扫描策略提出了挑战。2、门控机制,可以增强模型捕捉细节的能力。

2025-04-14 10:40:34 530

原创 Firefox缩小标签页高度以及自定义调整

新版的火狐标签页和地址栏太高了,比chrome和Edge都要高不少,有点浪费屏幕空间,不知道官方为什么这样设计。网上搜索,发现有一个紧凑模式,开了以后跟其他浏览器就一样高了,但是官方已经不建议使用。还可以使用该“定制工具栏” 功能,将 “书签” 拖到地址栏旁边,就可以使书签与地址栏在同一行,进一步节省空间了。转自:https://www.cnblogs.com/dirgo/p/17672716.html 有修改。

2025-03-03 15:05:25 819

原创 (arxiv2411) TinyViM: Frequency Decoupling for Tiny Hybrid Vision Mamba

众所周知,深度神经网络的浅层主要是提取细节信息,深层主要是提取全局信息。因此,作者使用 Frequency Ramp Inception,就是随网络加深,逐渐增加低频成分的比例,提高性能。作者有一个消融实验,表明低频比例在四个阶段分别取 [0.25, 0.50, 0.50, 0.75]时性能较好。为了解决这个问题,即保留高频特征,作者使用拉普拉斯金字塔的方法来分解特征的高频和低频,低频部分使用Mamba处理,高频部分使用卷积处理。论文:https://arxiv.org/abs/2411.17473。

2025-02-16 22:57:56 385

原创 使用豆包高效阅读论文

将论文PDF做为附件上传,总结论文的研究动机和创新点。可以得到下面的界面,左边是AI分析结果,右边是论文原文。每一处分析结果后面都有引用(图中标红的部分)。不是参考文献,是论文中的原话,击点即可直接转到论文中对应的位置。

2025-02-16 11:00:02 924

原创 (arxiv2411) CARE Transformer

如图 2(b)所示,通过在通道维度上对特征进行解耦,输入无需经过所有的卷积和线性注意力操作。非对称解耦策略节省了学习局部归纳偏差和全局信息的计算成本,而跨特征交互可以灵活有效地利用所学特征中的信息。在 CARE block里,首先进行特征的 asymmetrical decoupling,即将输入特征从通道维度分为两部分,一部分进行线性注意力计算,另一部分进行卷积运算。我比较好奇用于 linear attention 和 卷积 两部分的特征比例是如何设置的,也许是我看不够仔细,论文里貌似没有介绍。

2025-02-16 09:42:35 365

原创 [eccv2024] HiT-SR: Hierarchical Transformer for Efficient Image Super-Resolution

作者指出,当前基于Transformer的超分辨率方法,需要在窗口里面计算注意力,但是窗口大了计算复杂度高,窗口小了感受野不够。为此作者提出了 HiT-SR 方法,分别在 block level 和 layer level 进行了改进(下图中标红的部分)。创新点2:作者构建了 spatial-channel correlation,如下图所示。把特征按通道分成两部分,然后分别在空间和通道做交叉注意力。创新点1:在 block level,作者构建了层次化的窗口,即窗口越来越大,如下图所示。

2025-01-08 18:55:12 202

原创 [eccv2024] Context-Guided Spatial Feature Reconstruction for Efficient Semantic Segmentation

输入特征尺寸为DxHxW,总体来看,经过一系列操作,得到Dx1的向量,对输入特征进行通道注意力运算。该模块的关键是Dx1向量的计算,中间作者定义了一个大小为CxD的动态原型,解释说:动态原型能够反映不同类别目标在每个图像中的分布,会根据输入数据的特点动态调整。模型的整体架构如下图所示,可以看出,RCM用于多尺度空间特征提取,包括注意力计算RCA和MLP两部分。作者认为,当前方法难以对边界进行建模和区分前景对象的类别,因此会出现边界分割不准确和误分类的问题。论文其他部分可以参考作者论文,这里不过多介绍。

2025-01-08 15:28:23 204

原创 (aaai2025) FD2-Net: Frequency-Driven Feature Decomposition Network

这个论文核心思想认为:多源融合目标检测方法忽略了频率上的互补特征,如可见光图像中丰富的高频细节和红外图像中有价值的低频热信息,从而限制了检测性能。作者的思路是(如下图中的II所示),分别对可见光和红外图像提取高频、低频特征,将二者重新耦合。为此,作者提出了Frequency-Driven Feature Decomposition Network (FD2Net),如下图所示,包括三个部分:特征分解编码器,多模态重建,多尺度检测头。网络特点是,一方面要重建,另一方面要检测。

2024-12-24 22:23:51 516

原创 (aaai2024) Transformer-based Selective Super-Resolution for Efficient Image Refinement

作者提出 selective super-resolution 模型,输入图像分为不重叠的块,并通过 Tile Selection (TS) 分为目标与背景两类。不包含目标的块叫 negative tile,使用浅层网络进行重建。那么问题来了,怎么确定哪个块是目标区域,哪个块是背景区域呢?作者在特征提取网络后面加入了一个 Gumbel-Softmax layer 进行二分类,同时也保证了网络可以反向传播。因为没有做过超分,我有一个疑问,那就是这样分块操作,会不会产生拼接缝?

2024-12-24 20:53:15 177

原创 2024总结 - 老骥伏枥,志在千里

运动上更加佛系有松驰感,运动的频率挺高,大多是跑不动了走会儿,本质就是快走溜达,听听音乐和播客,完全不追求速度,只求一丢丢多巴胺让我兴奋和快乐。不足的地方就是,实验室的跑团经营的不太行了,因为来西海岸的时间不太规律,冬天天冷了也跑的不多了,期待明年春暖花开,继续和大家一起运动。工作上,表面上看是平平淡淡的一年,但自己知道,是稳中的进的一年。整体大环境变得很卷,经常也会觉得心累,但还是鼓励自己要更加努力,就像健身跑步一样,只要不断忽悠自己每一次举起哑铃都是有用的,我又变瘦了,坚持下去就能看到效果。

2024-12-19 09:00:07 312

原创 OUC ITStudio开展2024年第四季度优秀项目评审会

实践项目计划”通过一年两次的审核评选,对优秀的、健康发展的软件项目给予各方面的支持:资金、专家指导,项目交流等更多的机会,激发学生创新和学习的热情,让未来的IT精英们在第一时间掌握最新的软件开发技术。评审会现场气氛热烈而紧张,同学们通过精彩的 PPT 汇报、流畅的软件演示以及对项目技术细节的深入剖析,全方位地向评审专家展示了项目的独特魅力与创新价值。有的项目聚焦于工业场景3D建模,有的则试图解决海大校园信息搜索难以抓取到关键信息的痛点,有的项目聚集于Python与Nim语言在语法和标准库上的无缝迁移。

2024-12-16 07:16:22 215

原创 利用AI提高写作效率的记录

最近发现大模型已经成为生活里离不开的工具了,在高校里工作最多的场景就是写作,写论文,写项目申请书、给活动写新闻、给支部活动写总结等。特别容易在写作中感到黔驴技穷,写一两句话后就不清楚后面怎么写了。

2024-12-07 05:32:42 238

原创 【TGRS2024】Pick of the Bunch: Detecting Infrared Small Targets

(2) 线性挤压计算:传统的注意力机制利用类似于SENet和PVT中的池化操作,会将目标特征与背景噪声合并,稀释了目标特征。可以看出类似一个 encoder-decoder 架构,在 encoder部分,DDC和SeRank 交替处理,在decoder部分,使用 LSFF融合特征。框架包括 DDC,SeRank,LSFF 三个关键模块,分别解决了上述三个问题,下面将分别介绍。作者提出的方法,类似于挑剔的鉴赏家,“挑选精华”——利用高度敏感的特征提取器来保留即使是最暗淡的目标,同时采用可靠的模块来过滤虚警。

2024-11-08 07:25:11 382

原创 (arxiv2408) HSR-KAN: Efficient Hyperspectral Image Super-Resolution via Kolmogorov-Arnold Networks

该论文提出了一种基于KAN的高光谱图像超分辨率方法,主要贡献包括:(1)提出了一个融合 LR-HSI 和 HR-MSI 的模块,称为 KAN-Fusion,通过引入 KAN,可以很好地融合光谱特征与空间纹理特征。(2)提出了KAN Channel Attention Block (KAN-CAB)模块对融合后的光谱特征进行建模,通过通道注意力,利用KAN的优势,避免了Curse of Dimensionality。代码地址:https://github.com/Baisonm-Li/H。

2024-11-08 07:23:16 214

原创 【eccv2024】Frequency-Spatial Entanglement Learning for Camouflaged Object Detection

可以看出,该框架核心是 ETB 模块,其结构如下图所示。(1)提出了一个 Frequency-Spatial Entanglement Learning (FSEL) 框架,该框架利用全局频率和局部空间特征来增强伪装对象的检测。论文的总体框架如下图所示,总体类似一个 U-Net 架构,JDPM用来处理高层特征,ETB 对远程关系进行建模,并对初始特征的频域和空间域进行 entangle 学习。在EFFN中,作者加入了频率域操作,作者解释是空间和频率域的 entangle 学习可以获取更强的特征表示。

2024-11-08 07:21:44 305

原创 【TMM2024】Frequency-Guided Spatial Adaptation for Camouflaged Object Detection

因此,作者考虑在 adaptor 中加入频率域信息,论文的主要工作为设计了一个频率引导的空间注意模块( frequency-guided spatial attention module),使预训练的基础模型从空间域适应,同时由自适应调整的频率分量引导,更多地关注伪装区域。核心思路是把FFT变换以后的频率特征,拆分为一个个独立的 patch,给各个 patch 添加注意力。从图中可以看出,FBNM模块用于patch embedding之后,多使用卷积,获取目标与背景的细微差别。

2024-11-08 07:20:29 556

原创 【ACMMM2024】Multi-Scale and Detail-Enhanced Segment Anything Model for Salient Object Detection

因此,作者构建建的目标是增强低频信息,利用增强的低频信息调整高频信息,节省计算资源。作者的改进主要是加入了小波变换,同时设计了两个关键模块:low-frequency state space block (LFSSBlock) 和 high-frequency enhance block (HFEBlock),下面将分别介绍。特征经过DWT以后,低频部分输入到LFSS,是一个典型的 attention+FFN 的结构,只不过 attention 部分使用 SSM 替换。

2024-08-29 08:12:27 660

原创 【ACMMM2024】Multi-Scale and Detail-Enhanced Segment Anything Model for Salient Object Detection

论文:https://arxiv.org/pdf/2408.04326代码:https://github.com/BellyBeauty/MDSAM网络的整体架构如下图所示,关键模块是标红的部分,下面分别进行介绍。

2024-08-28 13:15:14 715

原创 【IJCAI2024】LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens

为此,作者提出了下图所示的框架。值得注意的是,网络的浅层使用的是cross-attention,深层使用的是自注意力(作者解释是自注意力的性能更高)。自然图像上的实验结果表明,学习到的 meta token 可以很好地关注图像中的目标,有助于提高分类精度。由于相邻像素和图像块之间的高度相关性,以及遥感图像中纹理和模式的重复性质,存在大量的空间冗余。如下图所示,ViT 中的自注意力机制计算每两个图像块之间的相似性,相似的token对特征表示的贡献很小,但消耗了大量的计算负载,影响了模型性能。

2024-06-28 22:04:46 628

原创 (arxiv2401) CrossMAE

MAE在decoder重建时,将 unmask 的 token恢复到图像中,整体进行self-attention计算,作者认为 masked token 彼此间也进行了attention计算,是没有必要的。所以,作者进行了改进,在解码器中将masked token 做为Q,unmasked token做为KV,进行cross attention计算。不过,这个改进并没有刻意的在引言里强调。论文主要探讨了在MAE的解码中,图像patch之间的依赖性,并提出了一种新的预训练框架 CrossMAE。

2024-04-05 20:23:11 416

原创 (arxiv2401) ClassWise-SAM-Adapter

task specific input module,本质就是加入了图像的低频信息,作者认为可以提供足够的土地覆盖特征信息,以增强分割性能。注意先是给每一层使用MLP生成特征,然后有一个共享的MLP继续对特征处理。首先介绍 adaptor,如下图所示,就是在每个 attention后面加了一个 MLP,同时在 layer norm 后面也加了一个MLP。这是第一个将SAM应用于SAR图像分割的工作。Class-wise mask decoder理解也不困难,就是把二分类改为了多分类。

2024-04-05 20:17:46 556

原创 【CVPR2023】Temporal Attention Unit: Towards Efficient Spatiotemporal Predictive Learning

在这个论文中,作者提出了一个通用的时空预测学习框架,其中空间编码器和解码器捕获帧内特征,中间的时域模块捕获帧间相关性。为了并行化时域模块,作者提出了时间注意力单元(Temporal Attention Unit, TAU),它将时间注意力分解为帧内静态注意力和帧间动态注意力。TAU 使用注意力机制来并行化的处理时间演变,该模块将时空注意力分解为:帧内静态注意力和帧间动态注意力。帧间动态注意力本质是通道注意力,给各个通道动态分配权重,作者描述这样可以捕获帧间的变化趋势。具体可以参照作者论文,这里不过多介绍。

2024-03-28 15:22:30 1057

原创 【CVPR2024】PEM: Prototype-based Efficient MaskFormer for Image Segmentation

论文总体架构如下图所示,和MaskFormer等方法类似,不同的地方在于 pixel decoder 和 Transformer decoder。Pixel decoder里的蓝色的CSM(上下文调制) 是通道注意力,紫色的Def Conv是 Deformable conv。需要注意的是,有一个 argmax 操作,正常会有不能反向传播的问题,不清楚实现的细节是如何的。研究挑战:基于Transformer的架构在图像分割领域取得了显著的成果,但这些架构通常需要大量的计算资源,特别是在边缘设备上。

2024-03-24 11:31:23 1026

原创 【ARXIV2402】MambaIR

该方法的网络架构如下图所示,可以看出和当前主流的网络总体结构是一致的。作者是用 Mamba 替换了 attention,当然在实现时,以两个分支并行的方式,而且也加入了卷积操作。作者认为Mamba可以理解为RNN和CNN的结合,可以较好的用于图像修复。2)使用四个方向的扫描,让当前像素的输出实际上是来自上下左右四个方向邻域的一维卷积结果。下图是论文的研究动机图,可以看出 MambaIR 有整幅图像范围的感受野,从而可以好地利用图像块重复先验。具体可以参考作者论文,这里不再过多介绍。

2024-03-24 11:29:40 571

原创 【AAAI2024】RVQCNIR: Clearer Night Image Restoration with Vector-Quantized Codebook

这个论文引入 VQGAN 的思想进行图像修复。作者认为,现有的夜间图像恢复方法效果不好是因为缺乏稳定和可靠的先验知识。为了解决这个问题,论文引入了向量量化(VQ)代码簿作为一个可靠和高质量的外部特征库,为纯数据驱动的图像恢复提供高质量先验。同时,做了两个改进,提出了自适应光照增强模块(AIEM)和可变形双向交叉注意力(DBCA)模块来确保细节和光照的真实恢复。AIEM利用特征之间的通道相关性来动态维持退化特征与高质量代码特征之间的光照一致性。

2024-03-24 11:27:50 442 1

原创 【CVPR2024】CricaVPR

论文技术框架如下图所示,主要的跨尺度的图像编码器。需要注意的是,该方法是在关联一个 batch 所有图像第i个区域的特征,而不是单个图像的所有区域特征。可以这么理解,以前的 attention 是考虑 token 和 token 之间的相似性,这里作者考虑的是 图像与图像之间的关联。第二个创新点: multi-scale convolution-enhanced adaptation 比较容易理解,作者使用多尺度卷积来微调DINO,如下图所示,这里不过多介绍。实验部分可以参考作者论文,这里不过多介绍。

2024-03-24 11:26:03 503

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除