Paper:Language-driven Semantic Segmentation
Code:https://github.com/isl-org/lang-seg
简介:
语义分割可以看做是像素级的分类,因此分类的新技术、新思路,一般可以直接用过来。本文实现了 zero-shot 的语义分割,实现方式与 CLIP 实现 zero-shot 的方式类似,都是通过类别 prompt 作为文本输入,然后计算相似度。

给定一张图片,然后通过文本 prompt 给任意的类别,从而实现对应的语义分割。可以看到,给定了对应的类别 prompt,那么对于图中明确出现了的语义类别(如dog、tree)模型能够很清楚地分割出来;对于图中没有的类别(如vehicle),模型也不会误召回(容错率高);对于图中有,但是类别 prompt 没给的(如tree、grass),也能正确分类为 other;同样可以检
LSeg论文提出了一种通过类别提示进行零样本语义分割的方法,利用CLIP模型的文本编码器结合图像编码器实现。在训练时以有监督方式进行,但在推理时可指定任意类别进行分割,表现出色于zero-shot场景,但few-shot和one-shot仍有提升空间。
订阅专栏 解锁全文
&spm=1001.2101.3001.5002&articleId=127621330&d=1&t=3&u=0ca7b29ea1284f31836ed068f622b4d9)
608

被折叠的 条评论
为什么被折叠?



