【开放词汇系列】Exploring Open-Vocabulary Semantic Segmentation from CLIP Vision Encoder Distillation Only
方法:GroupViT通过层次化聚合图像表征得到segment tokens,文本表征为segment tokens提供监督。而这篇论文利用预训练好的VLM–CLIP,为了降低标注需求,通过将图片分成多个块送入CLIP image encoder得到表征来提供监督。目的:降低OV-Seg 任务所需的标注(像素标注, 图像级标注, captionl)
原创
2023-12-29 09:10:31 ·
445 阅读 ·
0 评论