SAM笔记

SAM

组件一、可提示的分割任务

在自然语言处理(NLP)领域,基础模型通过“提示”技术实现对新数据集和任务的零样本和少样本学习。借鉴NLP的研究进展,SAM提出了多样化可提示的分割任务,旨在根据任何分割提示返回有效的分割掩码;

任务目标

定义:给定一张图片和一个分割提示,模型应返回一个合理的掩码,标识出图片中相应的对象;

提示: 提示可以包含空间信息或文本信息,用于指定图片中要分割的对象

有效性: 即使提示存在歧义,模型也要为可能的对象提供一个合理的掩码

零样本分割

组件二:SAM分割模型

通过结合强大的图像编码器、灵活的提示编码器和轻量级的掩码编码器,来实现图像分割

核心模块:图像、提示、轻量级掩码编码器

重用图像嵌入:通过分离图像编码和提示/掩码解码过程重用同一图像嵌入,降低计算成本;

高效实时处理:结合简洁的设计与快速的提示响应,SAM模型能在50毫秒内准确预测掩码

灵活的提示支持:模型能够良好适应点、框、掩码与自由文本提示。如预测单个提示的多个掩码,自然地处理图像中的模糊性问题,提供精确分割;

组件三、数据引擎

解决:1.泛化能力

2.数据稀缺性

三个阶段:辅助手动阶段、半自动阶段、全自动(平均每个图像生成100个高质量掩码)

SA-1B数据集

掩码高质量,多样

全自动收集

1.图像编码器:捕捉图像的关键信息和结构

模型的核心是一个掩码自编码器,利用一种视觉变换技术来增强处理能力

编码器将原始图像缩小16倍,从而得到一个特征密集的嵌入版本

2.提示编码器:自适应多种不同类型的用户输入

包括稀疏提示(点选、框选)、文本提示、密集提示

3.掩码编码器:有效结合图像嵌入和提示嵌入

SAMed架构:SAMed继承自SAM的架构,通过冻结图像编码器的所有参数并设计可训练的分支来适应医学SAMed架构:图像特征提取

LoRA在图像编码器中的应用:如何在图像编码器中应用LoRA策略来更新参数,以减少计算开销并保证分割性能

提示编码器和掩码解码器:SAMed在推理过程中不需要任何提示即可执行自动分割,修改SAM的掩码解码器以适应每个语义类别的输出

SegGPT是一个能够根据上下文对各种分割任务进行统一处理的模型。它通过将不同类型的分割数据转换为相同的图像格式,实现了对各种分割任务的适应。

训练方法:SegGPT的训练被构建为一个上下文着色问题,每个数据样本都有随机的颜色映射。目标是根据上下文完成多样化任务,而不是依赖特定颜色。

上下文着色、随机着色、混合上下文

后向匹配(Backward Matching, BM)目的:确保从参考图像的感兴趣区域(RoI)或背景中正确匹配提示点。
挑战:医学图像背景复杂,组织边缘模糊,仅依赖前向匹配可能导致分割结果不准确。
排除错误提示点:对前向匹配得到的提示点执行后向匹配,排除错误点,保留正确匹配的提示点。

  • 5
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值