概要
传统的检测网络和分割网络, 在开源数据集上效果很好,依赖于大量的有label的数据集。然而,实际视觉项目中,数据集不足或数据集难获取是一种常态,少样本的视觉检测分割方法显得尤为重要。 视觉大模型可以很好的解决这一问题,视觉大模型可以用很少的数据量达到很好的效果。 在分割任务方面,FC-CLIP模型相比SAM系列有明显的性能及效果优势,作者详细介绍一下FC-CLIP模型。
Convolutions Die Hard: Open-Vocabulary Segmentation with Single Frozen Convolutional CLIP
FC-CLIP论文链接:https://arxiv.org/abs/2308.02487
FC-CLIP官方github代码:https://github.com/bytedance/fc-clip
整体架构流程
首先看一下网络结构图
-
论文给出的网络结构图是训练和推理合在一起的网络结构图。
训练的时候out-vocab branch是不参与的, 只有in-vocab branch参与。