sunshineine-CSDN博客

原创图像生成、图像分割及目标检测的常用评价指标

FID 利用Inception v3 网络对图像提取高层特征（通常是 pool3 层（2048维）），然后将这些特征视为服从高维高斯分布。对于生成图像集和真实图像集，我们分别得到它们在特征空间中的分布：（生成图像特征的均值和协方差）；（真实图像特征的均值和协方差）。然后用 Fréchet 距离（又称 2-Wasserstein 距离）计算两者的分布差异：第一项是均值的欧式距离，第二项是协方差的距离（矩阵范数）。

2025-06-10 01:39:12 354

原创论文详读：InstructEdit：使用用户说明改进基于扩散的图像编辑的自动掩码（InstructEdit: Improving Automatic Masks forDiffusion-base）

本文提出InstructEdit框架，通过语言指令实现细粒度图像编辑。该框架整合三个核心组件：1)语言处理器(采用ChatGPT/BLIP2解析指令并生成分割提示与编辑字幕)；2)分割器(基于GroundedSegmentAnything生成高质量掩码)；3)图像编辑器(结合StableDiffusion与DiffEdit技术进行掩码引导生成)。实验表明，该框架在复杂场景下的细粒度编辑效果优于DiffEdit等现有方法，并能处理多种形式的用户指令。

2025-06-06 00:38:46 626

原创常见的图像生成模型

（1）Frechet Inception Distance（FID）[10]通过测量真实的图像和ImageNet预训练的Inception-V3 [48]网络上生成的图像之间的特征分布差异来显示生成图像的整体视觉质量。（2）Inception Score（IS）[38]使用在ImageNet网络上预训练的Inception-V3 [48]来计算生成图像输出的统计分数。（3）多样性得分（DS）通过比较DNN特征空间中的LPIPS [55]度量来计算相同布局的两个生成图像之间的多样性。（4）分类评分（CA

2025-05-24 22:47:28 937

原创论文详读：基于跨视图查询一致性的铁路轨道异物检测方法

铁路轨道异物检测在保障铁路正常运营方面具有重要意义。然而，目前该领域主要面临两大挑战：数据稀缺和标注成本高。由于轨道上的某些异常较为罕见，现有公开数据集难以覆盖多样化的异常情况；而人工标注数据不仅耗时费力，且难以满足大规模应用需求。为了应对这些挑战，本文提出了一种新颖的铁路轨道异物图像生成与检测框架，结合异物图像生成和半监督学习策略以提升检测性能。具体而言，针对数据稀缺问题，本文提出了一种基于扩散模型的多区域引导异物生成方法。

2025-05-22 15:22:35 1022

原创论文详读：基于扩散模型的图像编辑综述（Diffusion Model-Based Image Editing: A Survey）（涉及图像生成、图像合成、图像恢复、图像编辑等多个领域）

去噪扩散模型已经成为各种图像生成和编辑任务的强大工具，以无条件或输入条件的方式促进视觉内容的合成。它们背后的核心思想是学习逆转逐渐向图像添加噪声的过程，使它们能够从复杂的分布中生成高质量的样本。在这项调查中，我们提供了一个详尽的概述现有的方法，使用扩散模型进行图像编辑，涵盖理论和实践方面的领域。我们从多个角度对这些作品进行了深入的分析和分类，包括学习策略用户输入条件以及可以完成的特定编辑任务。此外，我们特别关注图像修复和外绘，并探讨早期的传统上下文驱动和当前的多模态条件方法。

2025-05-18 17:11:33 728

原创 ”SAM模型4“构造SAM模型自己的 Dataset 并继承 PyTorch 的 Dataset 类

即两个样本，每个样本有 3 个通道，高度和宽度为 256。，每个样本有 5 个点，每个点有 2 个坐标。文件中的图像数据、标签掩码和图像嵌入。，每个样本有 4 个边界框坐标。，每个样本有 5 个点的标签。这段代码定义了一个自定义的。，用于加载和处理存储在。

2025-05-07 01:02:11 217

原创 jupyter notebook运行简单程序

jupyterlab扩展了 Jupyter Notebook 的功能，增加了更多的工具和灵活性，支持多个文档和视图并排工作，包括 Jupyter Notebooks、终端、文本编辑器、图形控制台和富媒体输出。支持集成文件浏览器，支持文件的查看和操作。（2）在jupyter notebook中可新建一个文件夹，重命名part1，之后我们的教学的每一章将存放一个文件夹中。该文件可直接编写及运行代码。是一个开源的集成开发环境，旨在为用户提供一个功能齐全、界面友好的编程环境，支持代码编辑、调试、项目管理等功能。

2025-05-05 23:51:51 776

原创 python读取图片自动旋转的问题解决

安装所需的安装包。

2025-05-05 23:50:27 277

原创 Linux系统安装PaddleDetection

1. 查看设备先输入nvidia-smi，查看设备支持的最大cuda版本，选择官网中支持的cuda版本2. 下载CUDA并安装使用快捷键Ctrl+Alt+t打开终端，先输入nvcc -V,查看cuda版本在终端输入cat /proc/version查看设备ubuntu版本号根据设备版本选择合适的cuda版本选择后根据下方Installation Instructions的内容在终端输入这两行内容第一条语句进行下载第二条语句进行安装，选择Continue输入accept,按回车键。

2025-05-05 23:45:43 1234

原创 ”SAM数据3“将分割数据集中的“图像 + GT + 嵌入” 数据打包

SAM 的 image encoder（比如 ViT-H）对每张图做 embedding 的计算成本很高。将分割数据集中的“图像 + GT + 嵌入” 数据提前打包保存好，可以让之后训练、测试、推理阶段更快。

2025-04-24 00:39:20 296

原创 ”SAM数据2“分割数据集中.json格式标签转化成伪彩图图像

图像分割任务中，分割数据集的转换和表示方式对于模型训练至关重要。

2025-04-23 02:36:29 412

原创论文详读：一种用于变电站缺陷图像生成的新型对抗性深度学习方法（A Novel Adversarial Deep Learning Method for SubstationDefect Image）

2024-7-12变电站设备缺陷的存在是影响电力安全输送的主要因素。随着智能巡检机器人的发展，多利用主流的目标检测模型对变电设备表面缺陷进行诊断，但缺陷图像数据的缺乏是影响基于监督深度学习的缺陷检测模型准确性的主要因素之一。针对变电站设备锈蚀、表面漏油等复杂背景下缺陷图像训练数据不足，导致检测模型性能不佳的问题，本文提出一种基于对抗式深度学习的变电站缺陷图像生成模型--异常缺陷检测生成对抗网络（ADD-GAN）。与现有的生成式对抗网络不同，该模型在。

2025-04-17 16:42:56 744

原创 ”SAM数据1“大模型SAM辅助labelme分割数据集

在左上角文件中在此处点击“更改输出路径”，选择前边在数据集文件夹中创建的labels文件夹。点击“自动保存”后，点击下一幅，即可自动保存标注数据。在数据集文件夹中，新建images文件夹（存放需要被分割的原始图像）和labels文件夹（存放分割后的标签）。打开anaconda的envs目录下的此路径，打开-init-.py文件进行编辑。双击完成标注，在弹出的窗口输入标签类别，确认后在右侧栏出现标签名称。左键选择你想要的区域，然后shift+左键选择你不要的区域。在图片位置右击，选择创建AI多边形。

2025-04-14 23:44:28 519 3

原创如何在服务器中重新配置虚拟环境的cuda版本

从下往上搜索，选择cuda版本大于11.0，小于12.0，cudatoolkit 11.*的cudnn。装好pytorch后，命令行输入python，进入python的命令行，导入torch包。找到自己想要的cudatoolkit版本后，复制上图中的链接，执行如下代码下载。执行上述命令后，会显示出源内所有的cuda版本，以及下载地址，如图所示。检查是否安装成功，执行下面命令后，显示安装的版本就是安装成功了。检查是否安装成功，执行下面命令后，显示安装的版本就是安装成功了。复制上图中的链接，执行以下命令。

2025-03-31 12:33:11 552

原创论文详读：SAM引导的面向异常检测的双流轻量化模型（A SAM-guided Two-stream Lightweight Model for AnomalyDetection）

2025-02-28在工业异常检测中，模型高效性和移动友好性成为实际应用中的首要问题。本文针对这两个关键因素，提出了基于Segment Anything（SAM）的无监督异常检测双流轻量级模型 STLM，采用的两种轻量级图像编码器由SAM的知识指导，充分利用了SAM的鲁棒泛化能力。一个流被训练为在正常和异常区域中产生区分性和一般性的特征表示，而另一个流重建相同的无异常图像，从而有效地增强了两个流表示在面对异常区域时的区分性。此外，我们。

2025-03-28 16:18:02 943

原创 RAP-SAM（RAP-SAM : Towards Real-Time All-Purpose Segment Anything）

（1）以往的分割模型使用笨重的编码器和级联解码器，导致，且。（2）以前的实时分割，但实际情况是需要多种输出。仍没有研究调查实时的通用分割任务（或实时全方位分割），也就是包括图像分割、视频实例/视频分割以及类似 SAM 的交互式分割。

2025-03-20 13:33:27 615

原创 SAM提示总结

应用场景：（1）分割多个相似物体中的一个对象（2）同时分割同一图像中的多个相同物体（3）沿视频跟踪不同的物体SAM模型：（1）SAM的能力。即对于每一幅图像，都需要在复杂的场景中准确地找到目标物体，然后使用适当的提示激活 SAM 进行分割。

2025-03-20 13:26:47 816

原创 ASLSEG: ADAPTING SAM IN THE LOOP FOR SEMI-SUPERVISED LIVER TUMOR SEGMENTATION

应用场景：医学成像任务，如心脏磁共振成像(cMRI)的短轴视图分割，可能需要模型对特定结构有更精细的识别和分割能力。SAM模型：尽管SAM在一般图像分割任务上表现出色，但在医学成像领域，特别是需要精细结构分割或精确边界划分的任务上，SAM可能面临挑战。

2025-03-20 13:24:02 419

原创 SAM多目标跟踪与分割SAM-PT论文解读Segment Anything Meets Point Tracking

现有的关于视频注释的方法大多数侧重于掩码注释和传播，这大大降低了标注的效率和模型的泛化性。本文提出的SAM-PT是：通过结合SAM的图像分割功能和PT的点跟踪功能，引入了一种以点为中心的交互式视频分割方法。它使用稀疏点传播实现了对用户查询点的有效跟踪。与传统的以对象为中心的掩码传播策略相比，本文使用点传播以利用与对象语义无关的局部结构信息。实验结果表明，基于点的分割跟踪器能够实现更好的零样本性能和高效的交互，SAM-PT在视频分割任务中取得了很强的性能，包括半监督、开放世界和全交互式视频分割。

2025-03-20 13:20:40 889

原创 SAM功能改进Per-SAM论文解读PERSONALIZE SEGMENT ANYTHING MODEL WITHONE SHOT

发表时间：2023年10月4日论文：代码：在大数据预训练的推动下，任意分割模型(SAM)作为一个强大的提示框架已经被证明是一场切分领域的革命。尽管SAM具有通用性，但在没有人工提示的情况下为特定的视觉概念定制SAM还没有得到充分的探索，例如，在众多图像中自动分割您的宠物狗。在本文中，我们为SAM引入了一种无需培训的个性化方法，称为PerSAM。对于单镜头数据，即带有参考掩码的单幅图像，我们首先在新图像中获得目标概念的正负位置。

2025-03-20 13:19:06 650

原创 SAM掩码质量总结

应用场景：特别是对于自动注释和图像/视频编辑任务，其中高度准确的图像掩码至关重要。SAM模型：（1）预测不正确，mask破损（2）粗糙的掩码边界（3）SA-1B数据集会带来巨大的成本影响，并且无法实现我们工作中所追求的高质量掩码。

2025-03-20 13:18:34 947

原创 SAM轻量化应用Auto-SAM、Group-Mix SAM、RAP-SAM、STLM

知识蒸馏（Knowledge Distillation）是一种模型压缩技术，用小型的学生模型（student model）学习模仿大型的教师模型（teacher model）的行为，提高小型模型的性能，使其在推理时的性能更接近于大型模型。在实际应用中，尤其是在资源受限的环境下，模型需要有较高的效率，能够实时处理数据并快速给出检测结果，即需要较少的计算资源和时间，模型的复杂性和内存占用也是一个重要考虑因素。，该模块将从先前的图像编码器中提取的特征图作为输入，并自动学习以下掩码编码器所需的提示。

2024-05-09 12:33:27 1812 1

原创 SAM功能改进VRP-SAM论文解读VRP-SAM: SAM with Visual Reference Prompt

发表时间：2024年3月30日论文：代码：在本文中，我们提出了VRP-SAM，通过集成视觉参考提示(VRP)编码器实现了SAM框架的创新扩展。这个附加功能使SAM能够利用视觉参考提示进行引导分割。核心方法包括通过VRP编码器编码带注释的参考图像，然后与目标图像交互，在SAM框架内生成有意义的分割提示，对目标图像中的特定对象进行分割。VRP编码器可以支持各种参考图像的注释格式，包括点、框、涂鸦和掩码。它克服了SAM现有提示格式的限制，特别是在复杂场景和大型数据集中。

2024-04-10 10:06:02 2186 1

原创 SAM掩码质量改进PA-SAM论文解读PA-SAM: Prompt Adapter SAM for High-QualityImage Segmentation

1. 简介发表时间：2024年1月23日论文：代码：SAM在许多场景下，特别是在现实世界中，在掩码预测质量方面面临着挑战。本文提出了一种新的提示驱动的SAM适配器，开发了一个高质量分割网络PA-SAM，旨在提高原始SAM的分割掩码质量。PA-SAM冻结SAM组件，只需要对提示适配器进行微调，从而在生成高质量分割图的同时保留了原始SAM强大的对象定位能力。提示适配器进行了自适应细节增强和硬点挖掘，它通过从图像中挖掘详细信息来优化稀疏提示和密集提示。

2024-04-01 21:24:28 2258 1

原创 SAM轻量化改进SAM-Lightening论文解读SAM-LIGHTENING: A LIGHTWEIGHT SEGMENT ANYTHING MODEL WITHIN DILATED FLASH

由于SAM低推理速度和高计算内存需求，SAM在实际应用中的广泛应用受到了限制，这主要源自注意力机制。现有工作集中在优化编码器上，然而尚未充分解决注意力机制本身的低效率问题，即使是在将其蒸馏到较小的模型时，这也为进一步改进留下了空间。为此，SAM-Lightening对SAM中图像编码器的重新设计，通过将自注意力操作符蒸馏成具有动态层次蒸馏的Dilated Flash Attention。它不仅促进了更高的并行性，增强了处理效率，而且还保留了与现有的Flash Attention的兼容性。

2024-03-19 18:06:43 3835 1

原创 SAM多目标跟踪与分割TAM论文解读Track Anything: Segment Anything Meets Videos

SAM图像分割能力强，与不同提示的交互性高，但它在视频的一致性分割方面表现不佳。因此，作者提出了跟踪任何模型TAM，它实现了视频中的高性能交互式跟踪和分割。具体来说，给定一个视频序列，只需很少的人为参与，即几次点击，人们就可以跟踪他们感兴趣的任何东西，并在一次推理中获得满意的结果。无需额外的训练，这种交互设计在视频对象跟踪和分割方面表现令人印象深刻。与视频目标跟踪(VOT)类似，视频对象分割(VOS)的目的是将视频序列中的目标从背景中分离出来，可以看作是一种更细粒度的目标跟踪。

2024-03-05 17:01:05 2157

原创 SAM多目标跟踪与分割SAM-track论文解读Segment and Track Anything

作者提出了一种支持多模态交互的统一视频分割模型SAM-Track，SAM-Track具有出色的跟踪和分割能力以及两种用户友好的交互模式，以适应不同应用的不同需求。对于跟踪和分割能力，SAM-Track将交互式关键帧分割模型(SAM)与作者提出的基于AOT的跟踪模型(DeAOT)结合在一起，利用高效的DeAOT跟踪模式，SAM-Track可以快速跟踪多个目标速度。还集成了，这使得该框架能够支持基于文本的交互。对于交互模式。

2024-03-05 11:30:09 3371

原创 SAM轻量级改进EfficientViT-SAM论文解读EfficientViT-SAM: Accelerated Segment Anything ModelWithout

EfficientViT-SAM在保留SAM轻量级的提示编码器和Mask解码器的同时，用EfficientViT替换了沉重的图像编码器。训练过程包括两个阶段：首先，作者使用SAM的图像编码器作为教师来训练EfficientViT-SAM的图像编码器；其次，作者使用整个SA-1B数据集端到端地训练EfficientViT-SAM。实验中全面评估了EfficientViT-SAM在一系列零样本基准测试上的表现。EfficientViT-SAM在性能和效率上显著优于所有之前的SAM模型。

2024-03-04 14:24:18 2415 1

原创 SAM轻量级改进EdgeSAM论文解读EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM

EdgeSAM是SAM的加速变体，将原始的基于ViT的SAM图像编码器提炼成纯粹的基于CNN的架构，针对智能手机等边缘设备上的高效执行进行优化，以实现实时交互式分割，促进其在各种下游任务中的集成，并在性能上的妥协最小。现有的蒸馏方案只涉及图像编码器，因此是任务不可知的，不能向学生模型揭示SAM的完整知识谱。因此，本文对各种蒸馏策略进行基准测试，提出了一种同时考虑SAM的编码器和解码器并提供特定任务监督信号的提示循环知识蒸馏方法，以便蒸馏模型能够准确捕获用户输入和掩码生成之间的复杂动态。

2024-03-03 20:39:35 3459 1

原创 SAM轻量级改进EfficientSAM论文解读EfficientSAM: Leveraged Masked Image Pretraining for Efficient SegmentAnyth

SAM巨大的计算成本限制了其在实际应用中的广泛应用，为了解决这个限制，提出了轻量级的EfficientSAM，它具有良好的性能，同时大大降低了复杂性。EfficientSAM的想法是基于利用掩码图像预训练SAMI，SAMI通过重建SAM图像编码器的潜在特征来改进掩膜图像的预训练，将视觉基础模型中的知识转移到ViT中，以实现有效的视觉表征学习。此外，采用SAMI预训练的轻量级图像编码器和掩码解码器来构建高效SAMs，并对SA-1B上的模型进行微调以进行分割任何任务。

2024-02-15 22:52:44 3298 1

原创 SAM轻量化改进目录篇：FastSAM，MobileSAM，EfficientSAMs，RepViT-SAM，EdgeSAM，EfficientViT-SAM，SAM-Lightening

2023年4月6号，Meta AI公开了Segment Anything Model（SAM），使用了有史以来最大的分割数据集Segment Anything 1-Billion mask dataset（SA-1B），其内包含了1100万张图像，总计超过10亿张掩码图，模型在训练时被设计为交互性的可提示模型，因此可以通过零样本学习转移到新的图像分布和任务中。后续将更新补充还未发表的其他文章，还会更新如何在这六个模型中训练自己的数据集，感兴趣的同学点关注，将持续更新。

2024-01-31 15:59:44 3918 4

原创 SAM掩码质量改进HQ-SAM论文解读Segment Anything in High Quality

SAM尽管使用了11亿个掩码进行训练，但SAM的掩码预测质量在许多情况下都存在不足，特别是在处理结构复杂的物体时。因此提出HQ-SAM，保持SAM原有的提示设计，使SAM具备准确分割任何目标的能力，可以在保持zero-shot能力的同时产生更高质量的掩码。HQ-SAM重用并保留了SAM的预训练模型权重，同时只引入了最小的额外参数和计算。设计了一个可学习的高质量输出Token，并注入到SAM的掩码解码器中，负责预测高质量的掩码。而不是只应用它的掩码解码器功能，HQ-SAM还。

2024-01-29 21:25:54 2919 1

原创 SAM轻量级改进Mobile-SAM论文解读FASTER SEGMENT ANYTHING: TOWARDS LIGHTWEIGHT SAMFOR MOBILE APPLICATIONS

SAM在可用的训练资源有限的情况下性能不能令人满意，这主要是由图像编码器和掩膜解码器的耦合优化引起的，为此MobileSAM提出了解耦蒸馏。具体来说，是将重型图像编码器的知识提取为轻型图像编码器来使SAM适合移动设备，该轻型编码器可与原SAM中的掩码解码器自动兼容。由于我们的MobileSAM保留了原始SAM的所有管道，只是替换了图像编码器，因此它可以即插即用地为现有的基于SAM的项目从重量级SAM转变为轻量级SAM。

2024-01-26 14:41:43 2656 1

原创 Mobile-SAM使用的知识蒸馏方法论文讲解Distilling the Knowledge in a Neural Network

通常认为，知识是模型学习到的参数 (比如卷积的权重)将知识从大模型(教师网络)转移到更适合部署的小模型(学生网络)将知识从大模型迁移到小模型，模型的结构都不同，那这些 (知识)参数怎么会迁移成功?例如教师网络在识别一张宝马车图片时，可能会误认为垃圾车，很小的概率误认为胡萝卜，这就隐含了概率相对大小里面的一些隐含知识，所以迁移知识是可行的。2. 模型输出一般模型输出包括以下三种：logits：全连接层的输出hard targets：logits 通过 one-hot 编码实现。

2024-01-24 14:36:20 1909

原创 SAM轻量级改进Fast-SAM论文解读Fast Segment Anything

任意分割模型SAM突出的问题是与模型(SAM体系结构的主要部分)相关的大量计算资源需求。因此提出了一种具有相当性能的基本任务的加速替代方法。通过将任务重新表述为全实例分割和提示引导选择两个阶段，发现具有实例分割分支的常规CNN检测器也可以很好地完成该任务。通过仅在SA-1B数据集的2%(1/50)上直接训练该CNN检测器，以高50倍的运行时速度实现了与SAM方法相当的性能，大大减少了计算和资源需求，从而实现了实时应用。

2024-01-22 20:43:51 3017

原创 Grounded Segment Anything环境配置

进入官网地址下载：https://github.com/IDEA-Research/Grounded-Segment-Anything/tree/mainhttps://github.com/IDEA-Research/Grounded-Segment-Anything/tree/main下载以下两个引用的库，下载好后放在文件夹对应的位置VISAM：BingfengYan/VISAM at d7c38233882ff9d34d5cbecb8495e175e4dffc8c (github.com)https:

2024-01-17 20:22:34 362 1

单词、短语、句子（一种用于变电站缺陷图像生成的新型对抗性深度学习方法）

A SAM-guided Two-stream Lightweight Model for AnomalyDetection论文中的词汇、短语及句式

本论文中的词汇、短语和句式

空空如也