自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 对于SINet描述比较细致的一篇知乎文章

(99+ 封私信 / 82 条消息) 详解基于深度学习的伪装目标检测 - 知乎

2025-07-26 16:50:52 69

原创 nvidia-smi报错的解决方案

按照网上的帖子,查看nvidia driver 版本。如果输入nvidia-smi显示如下。然后使用dkms install。我选择安装了nvidia 550。但是会报错找不到一个文件。

2025-07-26 15:46:34 219

原创 安装mmcv的问题

(NVIDIA CUDA 编译器)失败,导致无法成功构建。如果cuda可用,会返回如下信息。的 wheel 文件。1.检查cuda是否可用。的路径已添加到系统的。2.安装完成后,确保。

2025-07-11 16:24:29 222

原创 SpectFormer:Frequency and Attention is what you need in a Vision Transformer(WACV 2025)

而我们认为,在视觉领域,spectral和multi-head self-attention是同等重要的,我们提出了SpectFormer,结合了spectral和multi-head attention。3.Versatility in Tasks:(任务的多功能性):在MS COCO上的测试证明了SpectFormer在目标检测和实例分割等任务上的性能,说明其在计算机视觉任务中的可扩展性很好。在__inint__初始化时,先初始化了复数权重,它的shape是(h,w,dim,2)我们来看一下代码实现。

2025-07-06 22:55:12 226

原创 Detecting Camouflaged Object in Frequency Domain

并且,我们设计了频率的损失函数去引导网络关注频域信号,根据图1来看,红色代表的是伪装目标,绿色代表是背景。在RGB域,伪装目标很难识别。我们只使用了U-Net类型的网络,(Res2Net和ResNet50作为Backbone),从Table 1可以看出,和之前的SOTA模型相比,只使用U-Net网络已经可以达到有竞争力的效果,尤其是在大型数据集上,这说明之前的SOTA模型没有较好的解决COD任务。为了在CNN模型中引入频率信息,我们首先设计了一个频域提升的模块来在频域挖掘伪装目标的线索。

2025-06-24 21:14:00 156

原创 A Simple Yet Effective Network Based on VisionTransformer for Camouflaged Objectand Salient Object

这篇论文的亮点不在于这个模块,我认为在于训练方式上,提出了同时采用COD和SOD数据集进行训练,使用类似MAE任务的自监督方式,对输入图像随机mask,然后要求模型预测mask掉的部分,计算损失时也只计算mask部分的预测损失。先对输入序列进行线性映射,然后使用GELU激活函数,接着进行Conv,这里的Conv具体展开如下,由于输入序列是transformer block中的维度,所以需要先将其Unpatchify.转换到(N,3,h,w)的CNN数据维度后,进行3*3Conv。MSE损失是均方误差损失。

2025-06-21 23:22:57 147

原创 Pytorch中view和reshape的区别

1.view是一种类似视图的操作,view后的张量和原始张量共用一个存储区,并且使用view需要tensore张量满足连续性条件:即stride[i]=stride[i+1]*size[i+1]如果不满足连续性条件,需要先使用。

2025-06-06 14:31:02 275

原创 深度学习基础

构造了query_conv,key_conv,value_conv保持原通道数不变,以及通过nn.Parameter构造了科学系的gamma因子。使用torch.bmm(proj_query,proj_key)计算query和key的相似度,即计算每个位置对其他位置的关注程度。proj_query维度为(b,h*w,c'),proj_key维度为(b,c'.h8w)然后使用proj_value*attention.permute(0,2,1)来自于CVPR2023一篇论文。

2025-05-31 21:53:03 121

原创 MySQL刷题记录

这里对于日期中含有年月日的,只取具体的日。1.mysql中的日期函数。相应的取日期中的年月。2.sql中的数学函数。

2025-05-29 17:42:35 166

原创 深度学习基础知识整理

对于分类任务而言,如果要分10类,那么最后的feature map的通道数应该设置为10,即对10*H*W的feature map进行全局平均池化,得到10*1*1的feature map,在其后再接入softmax,即可获得特征图属于每个的概率。对每一行做平均池化,如果特征图大小为C*H*W,进行水平池化后得到的特征图大小为C*H*1。对每一列做平均池化,如果特征图大小为C*H*W,进行垂直池化后得到的特征图大小为C*1*W。2.水平池化(Horizontal Pooling)

2025-05-23 18:02:21 188

原创 Camouflaged Object Detection with Feature Decomposition and Edge Reconstruction阅读笔记

由于伪装目标的复杂性,生成的prediction map存在一些区域是低置信度,我们采用了reverse strategy来挖掘低置信度的区域,通过对注意力进行反转。1.我们提出的FEDER解决了前景和背景的内部相似性,通过将特征分解为不同的频带,使用可学习的小波。GFA是Guidance-based Feature Aggregation module,作者提到不像之前的融合方法使用concatenation,GFA是专门为解决COD的关键问题而设计的,即,通过促进特征间的信息交互,强调细微的鉴别特征。

2025-05-22 22:15:04 841

原创 Efficient Camouflaged Object Detection Network Based on Global Localization Perception and Local

摘要:现有的COD方法面临两个困境,一个是容易陷入局部感知,导致目标定位不准确,二是缺乏细节信息,难以实现精确的目标分割。同时,我们设计了一个引导细化的Decoder(GRD),是top-down的设计,来提取上下文信息,逐步细化生成的伪装目标的mask。在COD任务中,CNN backbone缺乏全局视野的指导,使它们更容易收到噪声背景的强烈干扰,从而导致对伪装目标的定位错误。考虑到在通道维度存在一定的相似性,为了避免模型冗余和减少计算资源,我们将Fi-1和fi进行了分离,保留了一半的通道数。

2025-05-20 20:51:01 672

原创 Frequency-Guided Spatial Adaptation forCamouflaged Object Detection 阅读笔记

具体而言,我们将适配器的输入特征转换到频率域,并在频谱图中通过非重叠圆区域对频率成分进行分组和交互,从而对不同频率成分进行动态增强或削弱,自适应地调整图像细节和轮廓特征的强度。问题(Motivation):目前的adapter是为了补充空间域缺失的信息。然而,对于COD这一下游任务而言,一些关键线索(如纹理和图案中的细微变化)可能在空间域中难以察觉,但却可以通过频率域中独特的谱特性被有效揭示。因此,仅在空间域对预训练的基础模型进行适配,无法充分利用频率域信息所带来的优势,而这些信息对于COD任务尤为重要。

2025-05-14 22:38:21 245

原创 An edge-aware high-resolution framework for camouflaged object detection阅读笔记

问题一:作者认为已有的一些方法在输入图像时,降低了图像的分辨率,这种resizing operation虽然降低了计算量和内存,但是也降低了伪装目标和背景之间的细微的差别。接下来要注意一下AGF模块的输入,其实有三个,一个是上一层AGF模块的输出,因为这算是渐进的融合,细化生成mask,第二个是黑色的线,也就是Feature map,第三个是红色的线,是edge prediction map,这个AGF模块就是用来将边缘线索和feature map进行高效融合,然后生成mask的。用于增强图像的分辨率。

2025-05-13 22:19:55 402

原创 Multi-scale Adapter Based on SAM for Remote Sensing Semantic Segmentation阅读笔记

而作者提出的框架如图(b),红框内的patch块可以和粉色框大小的patch块,和蓝色框大小(3*3)个patch块大小,和绿色框(5*5)个patch块大小的区域进行self-attention计算。传统的self-attention机制是transformer将图像分成patch,然后不同patch之间进行self-attention计算,作者认为这是相同尺度大小的patch进行交互,缺乏在不同区域的多尺度交互的能力。然后分别进行3*3卷积,最后将那些特征图变小的再进行插值,然后在通道维度相加。

2025-05-07 20:34:57 278

原创 Hierarchical Side-Tuning for Vision Transformers阅读笔记

Transformer Bridge来自ViT Block的信息分为两个分支进行处理,左侧的Fmri代表的是Meta-Register,也就是提取Transformer Layer每一层全局信息的token,右侧的FPi是image tokens,首先通过Linear层进行映射,随后对image tokens进行全局平均池化,在与原来的Meta-Register进行通道维度拼接,得到Fmgi。也就是相当于,一个分支获取全局信息,另一个分支获取的还是原始的image tokens,代表局部信息。

2025-04-10 20:33:31 681

原创 Linux中清理torch下载的预训练权重文件

首先,我们下载的预训练权重文件会保存在以下路径中,所以需要切切换到这个目录。就可以看到我们下载的不完整的文件啦。rm -rf +文件名。

2024-11-07 20:50:47 224

原创 CVPR网站

2025 Conference

2024-11-06 19:42:38 148

原创 leetcode-39组合总和

【代码】leetcode-39组合总和。

2024-10-22 20:09:22 153 1

原创 力扣面试经典150题(55. 跳跃游戏)

给你一个非负整数数组nums,你最初位于数组的。数组中的每个元素代表你在该位置可以跳跃的最大长度。判断你是否能够到达最后一个下标,如果可以,返回true;否则,返回false。true可以先跳 1 步,从下标 0 到达下标 1, 然后再从下标 1 跳 3 步到达最后一个下标。false无论怎样,总会到达下标为 3 的位置。但该下标的最大跳跃长度是 0 , 所以永远不可能到达最后一个下标。维护一个最远可以到达的下标位置遍历数组nums[i],每遍历一个元素就更新当前最远可以到达的位置,

2024-08-08 15:49:43 412

原创 力扣数组刷题记录(80. 删除有序数组中的重复项 II)

【代码】力扣数组刷题记录(80. 删除有序数组中的重复项 II)

2024-08-05 23:05:37 249

原创 力扣数组刷题记录(88. 合并两个有序数组)

【代码】力扣数组刷题记录(88. 合并两个有序数组)

2024-08-05 22:20:49 150

原创 力扣数组刷题记录(27.删除元素)

【代码】力扣数组刷题记录(27.删除元素)

2024-08-05 22:19:06 124

原创 力扣数组刷题记录(26.删除有序数组中的重复项)

【代码】力扣数组刷题记录(两数之和)

2024-08-04 22:48:07 148 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除