自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 SAM轻量化应用Auto-SAM、Group-Mix SAM、RAP-SAM、STLM

知识蒸馏(Knowledge Distillation)是一种模型压缩技术,用小型的学生模型(student model)学习模仿大型的教师模型(teacher model)的行为,提高小型模型的性能,使其在推理时的性能更接近于大型模型。在实际应用中,尤其是在资源受限的环境下,模型需要有较高的效率,能够实时处理数据并快速给出检测结果,即需要较少的计算资源和时间,模型的复杂性和内存占用也是一个重要考虑因素。,该模块将从先前的图像编码器中提取的特征图作为输入,并自动学习以下掩码编码器所需的提示。

2024-05-09 12:33:27 993

原创 SAM功能改进VRP-SAM论文解读VRP-SAM: SAM with Visual Reference Prompt

发表时间:2024年3月30日论文:代码:在本文中,我们提出了VRP-SAM,通过集成视觉参考提示(VRP)编码器实现了SAM框架的创新扩展。这个附加功能使SAM能够利用视觉参考提示进行引导分割。核心方法包括通过VRP编码器编码带注释的参考图像,然后与目标图像交互,在SAM框架内生成有意义的分割提示,对目标图像中的特定对象进行分割。VRP编码器可以支持各种参考图像的注释格式,包括点、框、涂鸦和掩码。它克服了SAM现有提示格式的限制,特别是在复杂场景和大型数据集中。

2024-04-10 10:06:02 1283 1

原创 SAM掩码质量改进PA-SAM论文解读PA-SAM: Prompt Adapter SAM for High-QualityImage Segmentation

1. 简介发表时间:2024年1月23日论文:代码:SAM在许多场景下,特别是在现实世界中,在掩码预测质量方面面临着挑战。本文提出了一种新的提示驱动的SAM适配器,开发了一个高质量分割网络PA-SAM,旨在提高原始SAM的分割掩码质量。PA-SAM冻结SAM组件,只需要对提示适配器进行微调,从而在生成高质量分割图的同时保留了原始SAM强大的对象定位能力。提示适配器进行了自适应细节增强和硬点挖掘,它通过从图像中挖掘详细信息来优化稀疏提示和密集提示。

2024-04-01 21:24:28 1492 1

原创 SAM轻量化改进SAM-Lightening论文解读SAM-LIGHTENING: A LIGHTWEIGHT SEGMENT ANYTHING MODEL WITHIN DILATED FLASH

由于SAM低推理速度和高计算内存需求,SAM在实际应用中的广泛应用受到了限制,这主要源自注意力机制。现有工作集中在优化编码器上,然而尚未充分解决注意力机制本身的低效率问题,即使是在将其蒸馏到较小的模型时,这也为进一步改进留下了空间。为此,SAM-Lightening对SAM中图像编码器的重新设计,通过将自注意力操作符蒸馏成具有动态层次蒸馏的Dilated Flash Attention。它不仅促进了更高的并行性,增强了处理效率,而且还保留了与现有的Flash Attention的兼容性。

2024-03-19 18:06:43 2322 1

原创 SAM多目标跟踪与分割TAM论文解读Track Anything: Segment Anything Meets Videos

SAM图像分割能力强,与不同提示的交互性高,但它在视频的一致性分割方面表现不佳。因此,作者提出了跟踪任何模型TAM,它实现了视频中的高性能交互式跟踪和分割。具体来说,给定一个视频序列,只需很少的人为参与,即几次点击,人们就可以跟踪他们感兴趣的任何东西,并在一次推理中获得满意的结果。无需额外的训练,这种交互设计在视频对象跟踪和分割方面表现令人印象深刻。与视频目标跟踪(VOT)类似,视频对象分割(VOS)的目的是将视频序列中的目标从背景中分离出来,可以看作是一种更细粒度的目标跟踪。

2024-03-05 17:01:05 1357

原创 SAM多目标跟踪与分割SAM-track论文解读Segment and Track Anything

作者提出了一种支持多模态交互的统一视频分割模型SAM-Track,SAM-Track具有出色的跟踪和分割能力以及两种用户友好的交互模式,以适应不同应用的不同需求。对于跟踪和分割能力,SAM-Track将交互式关键帧分割模型(SAM)与作者提出的基于AOT的跟踪模型(DeAOT)结合在一起,利用高效的DeAOT跟踪模式,SAM-Track可以快速跟踪多个目标速度。还集成了,这使得该框架能够支持基于文本的交互。对于交互模式。

2024-03-05 11:30:09 1935

原创 SAM轻量级改进EfficientViT-SAM论文解读EfficientViT-SAM: Accelerated Segment Anything ModelWithout

EfficientViT-SAM在保留SAM轻量级的提示编码器和Mask解码器的同时,用EfficientViT替换了沉重的图像编码器。训练过程包括两个阶段:首先,作者使用SAM的图像编码器作为教师来训练EfficientViT-SAM的图像编码器;其次,作者使用整个SA-1B数据集端到端地训练EfficientViT-SAM。实验中全面评估了EfficientViT-SAM在一系列零样本基准测试上的表现。EfficientViT-SAM在性能和效率上显著优于所有之前的SAM模型。

2024-03-04 14:24:18 1479 1

原创 SAM轻量级改进EdgeSAM论文解读EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM

EdgeSAM是SAM的加速变体,将原始的基于ViT的SAM图像编码器提炼成纯粹的基于CNN的架构,针对智能手机等边缘设备上的高效执行进行优化,以实现实时交互式分割,促进其在各种下游任务中的集成,并在性能上的妥协最小。现有的蒸馏方案只涉及图像编码器,因此是任务不可知的,不能向学生模型揭示SAM的完整知识谱。因此,本文对各种蒸馏策略进行基准测试,提出了一种同时考虑SAM的编码器和解码器并提供特定任务监督信号的提示循环知识蒸馏方法,以便蒸馏模型能够准确捕获用户输入和掩码生成之间的复杂动态。

2024-03-03 20:39:35 1920 1

原创 SAM轻量级改进EfficientSAM论文解读EfficientSAM: Leveraged Masked Image Pretraining for Efficient SegmentAnyth

SAM巨大的计算成本限制了其在实际应用中的广泛应用,为了解决这个限制,提出了轻量级的EfficientSAM,它具有良好的性能,同时大大降低了复杂性。EfficientSAM的想法是基于利用掩码图像预训练SAMI,SAMI通过重建SAM图像编码器的潜在特征来改进掩膜图像的预训练,将视觉基础模型中的知识转移到ViT中,以实现有效的视觉表征学习。此外,采用SAMI预训练的轻量级图像编码器和掩码解码器来构建高效SAMs,并对SA-1B上的模型进行微调以进行分割任何任务。

2024-02-15 22:52:44 2032 1

原创 SAM轻量化改进目录篇:FastSAM,MobileSAM,EfficientSAMs,RepViT-SAM,EdgeSAM,EfficientViT-SAM,SAM-Lightening

2023年4月6号,Meta AI公开了Segment Anything Model(SAM),使用了有史以来最大的分割数据集Segment Anything 1-Billion mask dataset(SA-1B),其内包含了1100万张图像,总计超过10亿张掩码图,模型在训练时被设计为交互性的可提示模型,因此可以通过零样本学习转移到新的图像分布和任务中。后续将更新补充还未发表的其他文章,还会更新如何在这六个模型中训练自己的数据集,感兴趣的同学点关注,将持续更新。

2024-01-31 15:59:44 1715 3

原创 SAM掩码质量改进HQ-SAM论文解读Segment Anything in High Quality

SAM尽管使用了11亿个掩码进行训练,但SAM的掩码预测质量在许多情况下都存在不足,特别是在处理结构复杂的物体时。因此提出HQ-SAM,保持SAM原有的提示设计,使SAM具备准确分割任何目标的能力,可以在保持zero-shot能力的同时产生更高质量的掩码。HQ-SAM重用并保留了SAM的预训练模型权重,同时只引入了最小的额外参数和计算。设计了一个可学习的高质量输出Token,并注入到SAM的掩码解码器中,负责预测高质量的掩码。而不是只应用它的掩码解码器功能,HQ-SAM还。

2024-01-29 21:25:54 1937

原创 SAM轻量级改进Mobile-SAM论文解读FASTER SEGMENT ANYTHING: TOWARDS LIGHTWEIGHT SAMFOR MOBILE APPLICATIONS

SAM在可用的训练资源有限的情况下性能不能令人满意,这主要是由图像编码器和掩膜解码器的耦合优化引起的,为此MobileSAM提出了解耦蒸馏。具体来说,是将重型图像编码器的知识提取为轻型图像编码器来使SAM适合移动设备,该轻型编码器可与原SAM中的掩码解码器自动兼容。由于我们的MobileSAM保留了原始SAM的所有管道,只是替换了图像编码器,因此它可以即插即用地为现有的基于SAM的项目从重量级SAM转变为轻量级SAM。

2024-01-26 14:41:43 1535 1

原创 Mobile-SAM使用的知识蒸馏方法论文讲解Distilling the Knowledge in a Neural Network

通常认为,知识是模型学习到的参数 (比如卷积的权重)将知识从大模型(教师网络)转移到更适合部署的小模型(学生网络)将知识从大模型迁移到小模型,模型的结构都不同,那这些 (知识)参数怎么会迁移成功?例如教师网络在识别一张宝马车图片时,可能会误认为垃圾车,很小的概率误认为胡萝卜,这就隐含了概率相对大小里面的一些隐含知识,所以迁移知识是可行的。2. 模型输出一般模型输出包括以下三种:logits:全连接层的输出hard targets:logits 通过 one-hot 编码实现。

2024-01-24 14:36:20 1293

原创 SAM轻量级改进Fast-SAM论文解读Fast Segment Anything

任意分割模型SAM突出的问题是与模型(SAM体系结构的主要部分)相关的大量计算资源需求。因此提出了一种具有相当性能的基本任务的加速替代方法。通过将任务重新表述为全实例分割和提示引导选择两个阶段,发现具有实例分割分支的常规CNN检测器也可以很好地完成该任务。通过仅在SA-1B数据集的2%(1/50)上直接训练该CNN检测器,以高50倍的运行时速度实现了与SAM方法相当的性能,大大减少了计算和资源需求,从而实现了实时应用。

2024-01-22 20:43:51 1788

原创 Grounded Segment Anything环境配置

进入官网地址下载:https://github.com/IDEA-Research/Grounded-Segment-Anything/tree/mainhttps://github.com/IDEA-Research/Grounded-Segment-Anything/tree/main下载以下两个引用的库,下载好后放在文件夹对应的位置VISAM:BingfengYan/VISAM at d7c38233882ff9d34d5cbecb8495e175e4dffc8c (github.com)https:

2024-01-17 20:22:34 66

原创 SAM轻量级改进RepViT-SAM论文解读RepViT-SAM: Towards Real-Time Segmenting Anything

SAM由一个重量级的基于vit的图像编码器和一个轻量级的提示引导掩码解码器组成。其巨大的图像编码器占据了大部分的推理时间开销。

2024-01-17 20:22:02 1601 1

原创 windows环境下安装git和gitbash安装教程

从git官网下载一个git安装包,官网下载地址按照自己的环境下载,下载Windows版本的点击windows​点击后有两种版本,选择需要的版本下载(建议挂梯子后再点击下载):64-bit Git for Windows Setup:需要安装,安装后右键有git GUI here和git Bash here命令64-bit Git for Windows Portable:不需要安装,解压可用,右键无git GUI here和git Bash here命令​。

2024-01-15 21:44:21 887

原创 Mask RCNN模型结构精讲

(1)Mask R-CNN是2017年发表的文章,一作是何恺明大神,没错就是那个男人,除此之外还有Faster R-CNN系列的大神Ross Girshick,可以说是强强联合。该论文也获得了ICCV 2017的最佳论文奖(Marr Prize)。并且该网络提出后,又霸榜了MS COCO的各项任务,包括目标检测、实例分割以及人体关键点检测任务。(2)Faster R-CNN与Mask R-CNN框架比较(3)创新点。

2023-09-27 16:12:28 480

原创 FPN模型结构精讲

1.四种利用特征的形式2.FPN针对的问题3.FPN结构4.自下而上的路径(Bottom-up pathway)5.横向连接(lateral connections)6.自下而上的路径(Top-down pathway)7.总结

2023-09-27 15:00:43 861

原创 Faster RCNN模型结构精讲

1.模型结构2.convlayers3.RPN(区域生成网络)4.Anchor(锚)5.RoIpooling6.ClassificationandRegression7.FasterR-CNN训练8.训练数据的采样(正样本,负样本)9.总结

2023-09-27 14:47:13 348

原创 Fast R-CNN模型结构精讲

1. 训练过程2. 模型结构3. ROI pooling layer(ROI池化层)4. Multi-task loss(多任务损失函数)5. Mini-batch sampling(采样策略)6. 尺度不变性7. Truncated SVD(截断的奇异值分解)8. 主要的实验结果9.总结

2023-07-10 11:04:01 258 1

原创 SPPNet模型结构精讲

1. 模型结构2. Spatial Pyramid Pooling(空间金字塔池化)3. 分类与回归4. 总结

2023-07-10 10:26:46 133

原创 R-CNN模型结构精讲

1. 模型结构2. Selective Search(候选框提取算法)3. Bounding-box regression(边界框回归)4. NMS(Non-Maximum Suppression,非极大值抑制)5. 各阶段耗时统计6. 改进的R-CNN7. 总结

2023-07-10 10:08:33 178 1

原创 两阶段目标检测模型结构,优缺点汇总

根据两阶段目标模型检测方法的演进流程,详述每个模型的模型结构、创新点以及优缺点

2023-07-10 09:50:37 196 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除