SAM笔记

最新推荐文章于 2024-08-22 07:51:42 发布

2301_80140029

最新推荐文章于 2024-08-22 07:51:42 发布

阅读量219

点赞数 5

文章标签：人工智能笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_80140029/article/details/140890865

版权

SAM

组件一、可提示的分割任务

在自然语言处理(NLP)领域，基础模型通过“提示”技术实现对新数据集和任务的零样本和少样本学习。借鉴NLP的研究进展，SAM提出了多样化可提示的分割任务，旨在根据任何分割提示返回有效的分割掩码;

任务目标

定义：给定一张图片和一个分割提示，模型应返回一个合理的掩码，标识出图片中相应的对象;

提示: 提示可以包含空间信息或文本信息，用于指定图片中要分割的对象

有效性: 即使提示存在歧义，模型也要为可能的对象提供一个合理的掩码

零样本分割

组件二：SAM分割模型

通过结合强大的图像编码器、灵活的提示编码器和轻量级的掩码编码器，来实现图像分割

核心模块：图像、提示、轻量级掩码编码器

重用图像嵌入:通过分离图像编码和提示/掩码解码过程重用同一图像嵌入，降低计算成本;

高效实时处理:结合简洁的设计与快速的提示响应，SAM模型能在50毫秒内准确预测掩码

灵活的提示支持:模型能够良好适应点、框、掩码与自由文本提示。如预测单个提示的多个掩码，自然地处理图像中的模糊性问题，提供精确分割;

组件三、数据引擎

解决：1.泛化能力

2.数据稀缺性

三个阶段:辅助手动阶段、半自动阶段、全自动（平均每个图像生成100个高质量掩码）

SA-1B数据集

掩码高质量，多样

全自动收集

1.图像编码器：捕捉图像的关键信息和结构

模型的核心是一个掩码自编码器，利用一种视觉变换技术来增强处理能力

编码器将原始图像缩小16倍，从而得到一个特征密集的嵌入版本

2.提示编码器：自适应多种不同类型的用户输入

包括稀疏提示（点选、框选）、文本提示、密集提示

3.掩码编码器：有效结合图像嵌入和提示嵌入

SAMed架构:SAMed继承自SAM的架构，通过冻结图像编码器的所有参数并设计可训练的分支来适应医学SAMed架构:图像特征提取

LoRA在图像编码器中的应用:如何在图像编码器中应用LoRA策略来更新参数，以减少计算开销并保证分割性能

提示编码器和掩码解码器:SAMed在推理过程中不需要任何提示即可执行自动分割，修改SAM的掩码解码器以适应每个语义类别的输出

SegGPT是一个能够根据上下文对各种分割任务进行统一处理的模型。它通过将不同类型的分割数据转换为相同的图像格式，实现了对各种分割任务的适应。

训练方法:SegGPT的训练被构建为一个上下文着色问题，每个数据样本都有随机的颜色映射。目标是根据上下文完成多样化任务，而不是依赖特定颜色。

上下文着色、随机着色、混合上下文

后向匹配(Backward Matching, BM)目的:确保从参考图像的感兴趣区域(RoI)或背景中正确匹配提示点。
挑战:医学图像背景复杂，组织边缘模糊，仅依赖前向匹配可能导致分割结果不准确。
排除错误提示点:对前向匹配得到的提示点执行后向匹配，排除错误点，保留正确匹配的提示点。

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
SAM笔记

借鉴NLP的研究进展，SAM提出了多样化可提示的分割任务，旨在根据任何分割提示返回有效的分割掩码;提示编码器和掩码解码器:SAMed在推理过程中不需要任何提示即可执行自动分割，修改SAM的掩码解码器以适应每个语义类别的输出。排除错误提示点:对前向匹配得到的提示点执行后向匹配，排除错误点，保留正确匹配的提示点。定义：给定一张图片和一个分割提示，模型应返回一个合理的掩码，标识出图片中相应的对象;通过结合强大的图像编码器、灵活的提示编码器和轻量级的掩码编码器，来实现图像分割。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。