m0_54239393-CSDN博客

原创对于SINet描述比较细致的一篇知乎文章

(99+ 封私信 / 82 条消息) 详解基于深度学习的伪装目标检测 - 知乎

2025-07-26 16:50:52 69

原创 nvidia-smi报错的解决方案

按照网上的帖子，查看nvidia driver 版本。如果输入nvidia-smi显示如下。然后使用dkms install。我选择安装了nvidia 550。但是会报错找不到一个文件。

2025-07-26 15:46:34 219

原创安装mmcv的问题

（NVIDIA CUDA 编译器）失败，导致无法成功构建。如果cuda可用，会返回如下信息。的 wheel 文件。1.检查cuda是否可用。的路径已添加到系统的。2.安装完成后，确保。

2025-07-11 16:24:29 222

原创 SpectFormer:Frequency and Attention is what you need in a Vision Transformer(WACV 2025)

而我们认为，在视觉领域，spectral和multi-head self-attention是同等重要的，我们提出了SpectFormer,结合了spectral和multi-head attention。3.Versatility in Tasks:(任务的多功能性）：在MS COCO上的测试证明了SpectFormer在目标检测和实例分割等任务上的性能，说明其在计算机视觉任务中的可扩展性很好。在__inint__初始化时，先初始化了复数权重，它的shape是(h,w,dim,2)我们来看一下代码实现。

2025-07-06 22:55:12 226

原创 Detecting Camouflaged Object in Frequency Domain

并且，我们设计了频率的损失函数去引导网络关注频域信号，根据图1来看，红色代表的是伪装目标，绿色代表是背景。在RGB域，伪装目标很难识别。我们只使用了U-Net类型的网络，(Res2Net和ResNet50作为Backbone),从Table 1可以看出，和之前的SOTA模型相比，只使用U-Net网络已经可以达到有竞争力的效果，尤其是在大型数据集上，这说明之前的SOTA模型没有较好的解决COD任务。为了在CNN模型中引入频率信息，我们首先设计了一个频域提升的模块来在频域挖掘伪装目标的线索。

2025-06-24 21:14:00 156

原创 A Simple Yet Effective Network Based on VisionTransformer for Camouflaged Objectand Salient Object

这篇论文的亮点不在于这个模块，我认为在于训练方式上，提出了同时采用COD和SOD数据集进行训练，使用类似MAE任务的自监督方式，对输入图像随机mask,然后要求模型预测mask掉的部分，计算损失时也只计算mask部分的预测损失。先对输入序列进行线性映射，然后使用GELU激活函数，接着进行Conv,这里的Conv具体展开如下，由于输入序列是transformer block中的维度，所以需要先将其Unpatchify.转换到(N,3,h,w)的CNN数据维度后，进行3*3Conv。MSE损失是均方误差损失。

2025-06-21 23:22:57 147

原创 Pytorch中view和reshape的区别

1.view是一种类似视图的操作，view后的张量和原始张量共用一个存储区，并且使用view需要tensore张量满足连续性条件：即stride[i]=stride[i+1]*size[i+1]如果不满足连续性条件，需要先使用。

2025-06-06 14:31:02 275

原创深度学习基础

构造了query_conv,key_conv,value_conv保持原通道数不变，以及通过nn.Parameter构造了科学系的gamma因子。使用torch.bmm(proj_query,proj_key)计算query和key的相似度，即计算每个位置对其他位置的关注程度。proj_query维度为(b,h*w,c'),proj_key维度为(b,c'.h8w)然后使用proj_value*attention.permute(0,2,1)来自于CVPR2023一篇论文。

2025-05-31 21:53:03 121

原创 MySQL刷题记录

这里对于日期中含有年月日的，只取具体的日。1.mysql中的日期函数。相应的取日期中的年月。2.sql中的数学函数。

2025-05-29 17:42:35 166

原创深度学习基础知识整理

对于分类任务而言，如果要分10类，那么最后的feature map的通道数应该设置为10,即对10*H*W的feature map进行全局平均池化，得到10*1*1的feature map,在其后再接入softmax,即可获得特征图属于每个的概率。对每一行做平均池化，如果特征图大小为C*H*W,进行水平池化后得到的特征图大小为C*H*1。对每一列做平均池化，如果特征图大小为C*H*W,进行垂直池化后得到的特征图大小为C*1*W。2.水平池化(Horizontal Pooling)

2025-05-23 18:02:21 188

原创 Camouflaged Object Detection with Feature Decomposition and Edge Reconstruction阅读笔记

由于伪装目标的复杂性，生成的prediction map存在一些区域是低置信度，我们采用了reverse strategy来挖掘低置信度的区域，通过对注意力进行反转。1.我们提出的FEDER解决了前景和背景的内部相似性，通过将特征分解为不同的频带，使用可学习的小波。GFA是Guidance-based Feature Aggregation module，作者提到不像之前的融合方法使用concatenation，GFA是专门为解决COD的关键问题而设计的，即，通过促进特征间的信息交互，强调细微的鉴别特征。

2025-05-22 22:15:04 841

原创 Efficient Camouflaged Object Detection Network Based on Global Localization Perception and Local

摘要：现有的COD方法面临两个困境，一个是容易陷入局部感知，导致目标定位不准确，二是缺乏细节信息，难以实现精确的目标分割。同时，我们设计了一个引导细化的Decoder(GRD),是top-down的设计，来提取上下文信息，逐步细化生成的伪装目标的mask。在COD任务中，CNN backbone缺乏全局视野的指导，使它们更容易收到噪声背景的强烈干扰，从而导致对伪装目标的定位错误。考虑到在通道维度存在一定的相似性，为了避免模型冗余和减少计算资源，我们将Fi-1和fi进行了分离，保留了一半的通道数。

2025-05-20 20:51:01 672

原创 Frequency-Guided Spatial Adaptation forCamouflaged Object Detection 阅读笔记

具体而言，我们将适配器的输入特征转换到频率域，并在频谱图中通过非重叠圆区域对频率成分进行分组和交互，从而对不同频率成分进行动态增强或削弱，自适应地调整图像细节和轮廓特征的强度。问题(Motivation)：目前的adapter是为了补充空间域缺失的信息。然而，对于COD这一下游任务而言，一些关键线索（如纹理和图案中的细微变化）可能在空间域中难以察觉，但却可以通过频率域中独特的谱特性被有效揭示。因此，仅在空间域对预训练的基础模型进行适配，无法充分利用频率域信息所带来的优势，而这些信息对于COD任务尤为重要。

2025-05-14 22:38:21 245

原创 An edge-aware high-resolution framework for camouflaged object detection阅读笔记

问题一:作者认为已有的一些方法在输入图像时，降低了图像的分辨率，这种resizing operation虽然降低了计算量和内存，但是也降低了伪装目标和背景之间的细微的差别。接下来要注意一下AGF模块的输入，其实有三个，一个是上一层AGF模块的输出，因为这算是渐进的融合，细化生成mask，第二个是黑色的线，也就是Feature map,第三个是红色的线，是edge prediction map,这个AGF模块就是用来将边缘线索和feature map进行高效融合，然后生成mask的。用于增强图像的分辨率。

2025-05-13 22:19:55 402

原创 Multi-scale Adapter Based on SAM for Remote Sensing Semantic Segmentation阅读笔记

而作者提出的框架如图(b),红框内的patch块可以和粉色框大小的patch块，和蓝色框大小(3*3)个patch块大小，和绿色框(5*5)个patch块大小的区域进行self-attention计算。传统的self-attention机制是transformer将图像分成patch,然后不同patch之间进行self-attention计算，作者认为这是相同尺度大小的patch进行交互，缺乏在不同区域的多尺度交互的能力。然后分别进行3*3卷积，最后将那些特征图变小的再进行插值，然后在通道维度相加。

2025-05-07 20:34:57 278

m0_54239393的博客

原创对于SINet描述比较细致的一篇知乎文章

原创 nvidia-smi报错的解决方案

原创安装mmcv的问题

原创 SpectFormer:Frequency and Attention is what you need in a Vision Transformer(WACV 2025)

原创 Detecting Camouflaged Object in Frequency Domain

原创 A Simple Yet Effective Network Based on VisionTransformer for Camouflaged Objectand Salient Object

原创 Pytorch中view和reshape的区别

原创深度学习基础

原创 MySQL刷题记录

原创深度学习基础知识整理

原创 Camouflaged Object Detection with Feature Decomposition and Edge Reconstruction阅读笔记

原创 Efficient Camouflaged Object Detection Network Based on Global Localization Perception and Local

原创 Frequency-Guided Spatial Adaptation forCamouflaged Object Detection 阅读笔记

原创 An edge-aware high-resolution framework for camouflaged object detection阅读笔记

原创 Multi-scale Adapter Based on SAM for Remote Sensing Semantic Segmentation阅读笔记

原创 Hierarchical Side-Tuning for Vision Transformers阅读笔记

原创 Linux中清理torch下载的预训练权重文件

原创 CVPR网站

原创 leetcode-39组合总和

原创力扣面试经典150题（55. 跳跃游戏）

原创力扣数组刷题记录(80. 删除有序数组中的重复项 II)

原创力扣数组刷题记录（88. 合并两个有序数组）

原创力扣数组刷题记录(27.删除元素）

原创力扣数组刷题记录（26.删除有序数组中的重复项）

空空如也

空空如也