Zero-shot Learning零样本学习 论文阅读(九)——Semantic Projection Network for Zero- and Few-Label
这篇CVPR2019的论文提出的模型SPNet主要解决了零标签语义分割ZLSS和少标签语义分割FLSS。
算法模型
算法思路
整个模型一共分为两个部分,视觉语义嵌入和语义映射。首先,学习一个视觉语义嵌入模块,在词嵌入空间中生成中间特征映射。其次,通过一个固定词嵌入投影矩阵将这些特征映射投影到类概率中。在测试时,通过用新类的词嵌入代替投影矩阵,我们的模型能够分割未见类别。模型可以纳入任何语义分割网络,比如FCN和deeplab。
视觉语义嵌入
这个模块由一个CNN参数化,通过 ϕ : X → R a × b × d w \phi: \mathcal{X} \rightarrow \mathcal{R}^{a \times b \times d_{w}} ϕ:X→Ra×b×dw 映射输入图像 x ∈ X x∈X x∈X到 d w d_w dw维特征空间的映射。这等价于将 ( i , j ) (i, j) (i,j)处的每个像素嵌入到嵌入向量 ϕ ( x ) i