只爱喝水-CSDN博客

原创频率引导的空间自适应网络：伪装物体检测的新突破

频域-空间联合适应：首次在适配器中引入频域分析，动态调整频率成分增强特征判别力。轻量高效：通过双模块设计，以极小参数量实现预训练模型的高效迁移。多任务泛化：在COD和SOD任务中均验证了方法的通用性，为低对比度分割提供新思路。FGSA-Net通过频域引导的空间适应机制，为伪装检测开辟了新方向。其结合预训练模型强大表征与频域细粒度分析的能力，值得在医疗影像、自动驾驶等领域进一步探索。期待后续工作在多模态输入、实时性优化等方面的突破！

2025-03-21 14:13:18 588

原创 P2P:从点监督到显式视觉提示的物体检测与分割

每个提案组包含m个具有较强空间相关性的提案，记为Bi = {Bi,j}m j=1，其中Bi,j表示第i组中的第j个提案，m表示提案组中的提案个数。在Prompt Refiner I 中，我们得到一个语义准确的提案组B∗，随后在Prompt Refiner II中，我们进一步细化提案组以获得细化的提案B∗。其中，Zi表示proposal group Bi的特征嵌入,将组中所有proposal的特征嵌入求平均值,其中Zi,j表示Bi中的第j个proposal，|Bi|表示proposal的个数。

2025-03-12 19:48:33 913

原创 Mamba-YOLO论文阅读＋复现（包含报错解决）

一种新的检测器模型Mamba-YOLO，将状态空间模型（SSM）引入到实时目标检测领域，并结合了当前最先进的YOLO系列算法的优点。具体来说，作者提出了ODSSBlock模块来应用SSM结构，同时设计了LSBlock和RGBlock两个新模块来增强模型的局部特征捕捉能力和通道表达能力。实验结果表明，Mamba-YOLO在PASCAL VOC和COCO数据集上表现出了比现有最先进算法更高的mAP值。此外，该论文还对该领域的其他相关研究进行了综述和比较，展示了Mamba-YOLO的独特性和优越性。

2024-10-27 09:49:10 3682 8

原创 Leveraging Swin Transformer for Local-to-Global Weakly Supervised Semantic Segmentation 论文阅读

卷积神经网络(cnn)是WSSS中最常用的集成骨干模型。尽管在这一领域取得了进展，但所提出的策略在生成完整的目标区域方面仍然面临局限性，这是由于卷积只感知小范围的特征关系，并且只提供场景的局部接收。1.SWTformer-V1，它通过利用转换器的分层流捕获本地细粒度细节和全局结构。为了解决在非分层策略中使用变压器的注意力流精炼激活图的局限性，提出了SWTformer-V2。该版本引入了层次特征融合模块，从网络中捕获多尺度语义知识，并将其应用于背景感知机制的改进版本中。

2024-10-17 14:52:27 720 1

原创 Rethinking the Localization in Weakly Supervised ObjectLocalization

弱监督对象定位中的再思考

2024-10-08 17:24:33 943

原创 BAS模型论文阅读

通过实验研究发现，BAS在大中型对象上表现较好，但在小型对象上表现不佳。我们认为主要原因有以下两个方面:小目标的定位是计算机视觉固有的问题，另一方面，面积约束损失对不同尺寸目标的惩罚不均匀，对小目标的惩罚较少，这导致BAS无法仅用一个超参数来调节面积约束损失来平衡大目标和小目标。未来可能的工作：1）解决BAS模型在不同尺寸下定位能力的性能问题 2）扩展BAS的应用对于1我们或许可以采用多尺度的特征提取或者改进面积约束损失使其可以自适应地进行调整损失函数等。

2024-09-18 09:30:38 1152 2

原创 Improving Weakly-Supervised Object Localization Using Adversarial Erasing and Pseudo Label 论文阅读

读完这篇论文，作者最大的改进点就是把前人在弱监督目标定位提出的方法（eg:伪标签，对抗性擦除）杂糅到一个特征提取器，一个定位器和一个分类器的架构中，提出了几个新颖的损失项包括：一个使用对抗性擦除的特征映射计算的损失项，另一个是使用来自对抗性擦除的前景区域的特征计算的损失项，一个基于像素级伪标签的损失项。对于下图伪标签的生成过程中，从（b)到（c)的过程中，最后伪标签丢失了很多目标的轮廓区域，对于伪标签的生成仅仅依赖于（b）,此处可能是一个潜在的改进点。

2024-09-16 15:51:38 1023 2

原创 SafaRi:弱监督引用表达式分割的自适应序列转换器

引用表达式分割(reference Expression Segmentation, RES)旨在提供文本所引用的图像(即引用表达式)中目标对象的分割掩码。目前存在的挑战1)现有的方法需要大规模的掩码注释。2)此外，这种方法不能很好地推广到未见/零射击场景。

2024-09-15 10:17:23 907

原创 A Single Generic Prompt forSegmenting Camouflaged Objects

这篇论文《Relax Image-Specific Prompt Requirement in SAM: A Single Generic Prompt for Segmenting Camouflaged Objects》主要聚焦于解决在使用 Segment Anything Model（SAM）时对特定图像提示的需求问题，提出使用单一通用提示来分割伪装物体。

2024-09-11 15:45:00 744

原创【无标题】SAM(Segment Anything Model)

密集提示（如掩膜）通过卷积嵌入，并通过图像嵌入按元素求和。轻量级掩膜编码器根据图像和提示编码器的嵌入来预测分割掩膜。所有嵌入均由解码器块更新，解码器块在两个方向（从提示到图像嵌入再返回）使用即时自注意力和交叉注意力。4)在预先计算图像嵌入后，SAM 可以立即为任何提示提供分割掩膜，从而实现与模型的实时交互。SAM是基于NLP的一个基础模型，专注于提示分割任务，使用提升工程来适应不同的下游分割任务。1）SAM总体架构包括图像编码器，提升编码器，轻量级的掩膜解码器。2）SAM的输入一张图像的大概工作流程。

2024-09-10 10:41:59 511

原创 CIAT:A Consistency and Integration Model with Adaptive Thresholds for WeaklySupervised Object Local

2)浅深特征的一致性和集成模块(CISD) 通过保持浅深特征之间的语义空间信息一致性，显著提高了目标定位的效率。3)在线自适应阈值(OAT) 利用每个定位地图的先验信息来计算鲁棒阈值，以实现更准确的预测。

2024-09-07 11:02:39 872

原创 CAM Back Again论文详解

"CAM Back Again: Large Kernel CNNs from a Weakly Supervised Object Localization Perspective" 是一篇研究论文，探讨了在弱监督目标定位（WSOL）任务中，如何利用大卷积核卷积神经网络（CNNs）来提升类激活映射（CAM）的表现。该研究提出了一种新颖的方法，通过结合大卷积核与CAM来增强模型的定位能力。

2024-08-29 16:48:45 1413

原创 Vision Transformer理论＋PyTorch代码全解析（附图解）

前几年CV领域的Vision Transformer将在NLP领域的Transormer结果借鉴过来，屠杀了各大CV榜单。本文将根据最原始的Vision Transformer论文，和GitHub上star最多的Pytorch代码实现，将整个ViT的代码做一个全面的解析。对原Transformer还不熟悉的读者可以看一下Attention is All You Need原文。

2024-08-28 15:09:51 2639 1

原创 Transformer网络架构

第一次看Transformer的架构，我是有点看不懂的，在查阅大量资料之后对于Transformer的认识会变得越来越清晰，以下是最近阅读Transformer相关文章的总结Transformer可以比较好进行并行训练（相对于RNN和LSTM）Transformer 架构本身不能利用单词的原有顺序信息，需要在输入中添加位置 Embedding，否则 Transformer 就是一个词袋模型了。Transformer 的重点是 Self-Attention 结构，其中用到的Q, K, V。

2024-08-28 10:45:00 1693

原创机器学习之------RNN循环神经网络

Jordan网络可以得到比较好的性能，因为Elman网络的隐藏层是没有target的，比较难控制它学到了什么信息，但是Jordan网络的输出y是有target的，可以对放在memory中的是什么东西比较清楚的。用双向RNN的好处，就是网络产生输出的时候，看的范围比较广。如果只有正向的RNN，在产生yt+1yt+1的时候，网络只看过x1x1一直到xt+1xt+1，但是如果是双向的RNN，在产生yt+1yt+1的时候，网络不只是看过x1x1一直到xt+1xt+1，也看了从句尾一直到xt+1xt+1。

2024-08-26 16:38:20 1098

原创在ubuntu系统终端使用Oh My Zsh扩展集遇到的坑

Oh My Zsh 是一款社区驱动的，正如它的主页上说的，Oh My Zsh 是一种生活方式。它基于 zsh 命令行，提供了主题配置，插件机制，已经内置的便捷操作。给我们一种全新的方式使用命令行。

2024-08-23 09:53:52 650

原创无监督训练模型之------MoCo

MoCo于2019年11月13在 CVPR发表，并获得 CVPR2020最佳论文提名，它是用一种对比学习的方式进行无监督训练的模型。MoCo是第一个在很多主流的机器视觉领域上（比如分类、检测、分割、人体关键点检测等），都超越了有监督预训练模型的无监督模型，从某种程度上证明了无监督学习在机器视觉领域，也能达到很好的效果。MoCo这个词，来自于论文标题的前两个单词动量对比Momentum Contrast。什么是动量。

2024-08-20 15:32:53 2172

原创目标检测之------EfficientDet(BiFPN)可扩展且高效的目标检测

本文受EfficientNet的启发，提出了一种用于目标检测模型的复合尺度变换方法，不仅可以同时对分辨率、网络深度、网络宽度三个维度进行统一缩放，而且可以对目标检测模型中的骨干网络、特征网络、分类/回归预测网络中的上述三个维度进行统一缩放。此外，本文还提出了一种新的加权双向特征金字塔网络（bi-directional feature pyramid network，BiFPN），可以简单快速地进行多尺度特征融合。基于上述两点，并入引入更好的backbone即EfficientNet，作者提出了一个新的检测

2024-08-19 08:35:08 1253

原创目标检测之---SSD算法详解

SSD模型在2016年由Wei Liu等人提出，并迅速成为对象检测领域的重要工具。随着深度学习技术的不断发展，SSD在许多应用中被广泛使用，如自动驾驶、视频监控、智能安防等。SSD（Single Shot MultiBox Detector）是一种用于对象检测的深度学习神经网络架构。它主要用于在图像中检测和识别多个对象，同时预测这些对象的类别和位置。SSD在速度和精度之间达到了很好的平衡，使其成为实时应用中非常流行的选择。

2024-08-12 14:50:42 3243 1

原创深度学习之目标检测---RetinaNet网络结构详解

无论是前景类还是背景类， p t p_t pt 越大，权重 ( 1 − p t ) γ (1-p_t)^{\gamma} (1−pt)γ 就越小，即简单样本的损失可以通过权重进行抑制；α t \alpha_t αt 用于调节正负样本损失之间的比例，前景类别使用 α t \alpha_t αt 时，对应的背景类别使用 1 − α t 1-\alpha_t 1−αt;γ \gamma γ 和 α t \alpha_t αt 的最优值是相互影响的，所以在评估准确度时需要把两者组合起来调节。

2024-08-11 09:35:58 1981

原创 YOLOV3目标检测原理——详解

本文是自己在b站视频讲解学习，并且查阅理解许多文章后，做的通俗理解与总结，欢迎评论交流。yolov3检测分两步：1、确定检测对象位置2、对检测对象分类（是什么东西）即在识别图片是什么的基础上，还需定位识别对象的位置，并框出。我们首先上一幅图宏观理解下图中的红框是通过在yolov3检测最后得出的（bounding box），又如下图的黄色框也是yolov3处理图片过程如下。

2024-08-10 15:57:41 1528

原创基于ResNet50实现垃圾分类

ResNet50是Residual Networks（残差网络）的一种变体，由Kaiming He等人在2015年提出。ResNet50包含50个深度层，通过引入残差模块，有效地解决了深层网络的退化问题。残差模块通过引入短连接（skip connections）使得网络在训练时更容易优化。下图在下文中称为主图模型的精确率达到了69.7%左右，并且对一些样本少的类别和图像质量较差的预测结果不理想，可能需要对图像的预处理方法进行改进，比如图像增强等等。

2024-07-31 11:07:57 2600 1

原创目标检测之---从R-CNN到Fast R-CNN再到Faster R-CNN

Fast R-CNN是作者Ross Girshick继R-CNN后的又一力作。同样使用VGG16作为网络的backbone，与R-CNN相比训练时间快9倍，测试推理时间快213倍，准确率从62%提升至66%（在PascalVOC数据集上）Faster R-CNN是作者Ross Girshick继Fast R-CNN后的又一力作。同样使用VGG16作为网络的backbone，推理速度在GPU上达到了5fps（包括候选区域的生成），准确率也有进一步的提升。

2024-07-25 13:35:02 903

原创 [深度学习]-利用pytorch训练好的VGG16网络实现自定义数据集上的图像分类(含代码及详细注释)

VGG16分类因资源有限只能调用训练好的模型进行图像预测相关代码# 1.读取图片plt.show()plt.show()# 根据输出结果预测标签的后处理类的编写。

2024-07-23 10:06:30 785

原创 Fast R-CNN网络结构、框架原理详解

在Fast R-CNN中，并不适用SS算法提供的所有的候选区域，SS算法会差不多得到2000个候选框，但是训练的过程中其实只需要使用其中的一部分就可以了，Fast R-CNN中好像只挑选了其中的64个。分别对应着我们回归参数 x 的smoothL1的回归损失，回归参数 y 的smoothL1的回归损失，回归参数 w 的smoothL1的回归损失与最后的回归参数 h 的smoothL1的回归损失。而当u不满足条件时，也就是u<1时，也就是u=0时，（u为类别的标签），此时类别标签为背景，公式的值为0.

2024-07-22 12:27:09 3281 1

qq_52191127的博客