Abstract
这篇论文出发点是想减轻现在语义分割任务中需要expensive annotation的问题,提出了few-shot(training过程中有少量某一测试类的label)以及zero-shot(training过程中无任何标注),并且不采用pixel-level而采用轻量标注(image level label和box annotation)的方法。名为semantic projection network (SPNet)
Introduction
作者认为虽然很多语义分割的网络做的很好,但是是固定已知类去学习的,测试的时候也只能分割已知类的物体。但现实生活中,人往往能做到通过已有的知识,学习到一些novel class。
本文想完成(generalized) ZLSS and FLSS
Method
大体看pipeline是先通过通用的网络学习一些图像的embedding,再通过一次projection映射到某个词空间。而且这个W矩阵是fixed word embedding projection matrix(也即不会更新词向量),会把feature map 映射成class probabilities然后完成分割。测试的时候会把这个矩阵换成带有新class的矩阵W。
Inference
如图中表格,把W添加上novel class相关的,但是当完全没有unlabeled data可能会出现偏向预测seen class的现象,所以会采用一种特殊的策略,人为干预的在预测novel class的时候减少seen class的分数