论文阅读-LSeg:Language-driven Semantic Segmentation(语义分割)

LSeg论文提出了一种通过类别提示进行零样本语义分割的方法,利用CLIP模型的文本编码器结合图像编码器实现。在训练时以有监督方式进行,但在推理时可指定任意类别进行分割,表现出色于zero-shot场景,但few-shot和one-shot仍有提升空间。
摘要由CSDN通过智能技术生成

Paper:Language-driven Semantic Segmentation

Code:https://github.com/isl-org/lang-seg

简介:

    语义分割可以看做是像素级的分类,因此分类的新技术、新思路,一般可以直接用过来。本文实现了 zero-shot 的语义分割,实现方式与 CLIP 实现 zero-shot 的方式类似,都是通过类别 prompt 作为文本输入,然后计算相似度。

    给定一张图片,然后通过文本 prompt 给任意的类别,从而实现对应的语义分割。可以看到,给定了对应的类别 prompt,那么对于图中明确出现了的语义类别(如dog、tree)模型能够很清楚地分割出来;对于图中没有的类别(如vehicle),模型也不会误召回(容错率高);对于图中有,但是类别 prompt 没给的(如tree、grass),也能正确分类为 other;同样可以检测类别的子类或父类如(dog、pet),模型也能够通过语义识别出来。由于 CLIP 类的模型实质上都是通过计算图文相似度来实现分类或分割的,因此 ‘other’ 类的类别,prompt 文本实际可以是任何无意义的文本,如 ‘me’,‘a’,‘an’ 等,只要与目标类别不要太

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值