题目:SAN: Side Adapter Network for Open-Vocabulary Semantic Segmentation
面向开放词汇表的语义分割的边侧适配器网络
作者:Mengde Xu; Zheng Zhang; Fangyun Wei; Han Hu; Xiang Bai
源码链接: https://github.com/MendelXu/SAN
摘要
本文专注于开放词汇语义分割(Open-Vocabulary Semantic Segmentation, OVSS),目标是构建一个能够识别图像中任意类别的模型。为实现此目标,我们提出了一种新颖的框架,称为边适配网络(Side Adapter Network, SAN)。我们的设计原则有三个方面:1)最近的大规模视觉-语言模型(例如CLIP)展现出了有前景的开放词汇图像分类能力;通过适配预训练的CLIP模型至开放词汇语义分割是训练效率的优化。2)我们的SAN模型应该既轻量又有效,以降低推理成本——为实现这一点,我们融合了CLIP模型的中间特征来增强SAN模型