GroupViT: Semantic Segmentation Emerges from Text Supervision
前置知识
transformer
这一篇本质上来说是迁移学习,后置阅读
摘要
end-to-end deep learning 端对端的训练
将分组机制带回到深度学习网络(允许只有文本监督而无像素级标识)
使用了Transformer模型
zero-shot(零次训练迁移)本质上来说是迁移学习
简介
语义分割通常使用全卷积神经网络实现
存在两个缺点:
- 打标签成本高昂
- 学习模型仅限于标记标签
GroupViT
利用Transformer的全局自注意力机制可以将视觉标记按照非网格状组装。
因此将视觉标记分层分组成不规则形状的标记