SAM主要有图像编码器(image encoder)、提示编码器(prompt encoder)和掩码解码器(mask decoder)三部分构成,前两部分都比较直观,最后的掩码解码器(mask decoder)相对来说复杂一些。以下是搜集到的一些帮助理解掩码解码器(mask decoder)的资料。
文字讲解:
代码:
SAM之MaskDecoder总结(个人研究)_sam maskdecoder-CSDN博客
个人笔记内容:
在SAM(Segment Anything Model)中,mask decoder的output tokens由两部分组成:iou token和mask tokens。
-
iou token:这是一个特殊的token,用于预测模型输出的mask与真实mask之间的IoU&#