Paper:Language-driven Semantic Segmentation
Code:https://github.com/isl-org/lang-seg
简介:
语义分割可以看做是像素级的分类,因此分类的新技术、新思路,一般可以直接用过来。本文实现了 zero-shot 的语义分割,实现方式与 CLIP 实现 zero-shot 的方式类似,都是通过类别 prompt 作为文本输入,然后计算相似度。
给定一张图片,然后通过文本 prompt 给任意的类别,从而实现对应的语义分割。可以看到,给定了对应的类别 prompt,那么对于图中明确出现了的语义类别(如dog、tree)模型能够很清楚地分割出来;对于图中没有的类别(如vehicle),模型也不会误召回(容错率高);对于图中有,但是类别 prompt 没给的(如tree、grass),也能正确分类为 other;同样可以检测类别的子类或父类如(dog、pet),模型也能够通过语义识别出来。由于 CLIP 类的模型实质上都是通过计算图文相似度来实现分类或分割的,因此 ‘other’ 类的类别,prompt 文本实际可以是任何无意义的文本,如 ‘me’,‘a’,‘an’ 等,只要与目标类别不要太