PFENet:Prior Guided Feature Enrichment Network for Few-Shot Segmentation
作者:Zhuotao Tian, Hengshuang Zhao, Michelle Shu, Zhicheng Yang, Ruiyu Li, Jiaya Jia, Fellow, IEEE(贾佳亚,香港中文大学)
发表:2020TPAMI
关键词:小样本分割
论文:[2008.01449] Prior Guided Feature Enrichment Network for Few-Shot Segmentation (arxiv.org)
背景
1. 小样本分割任务
2. 小样本分割的挑战
- 高层特征的误用导致的泛化损失(未知类别泛化损失弱)
- 查询样本和空间样本之间的空间不一致
动机
问题1:高层特征误用导致的泛化损失
在CANet论文中,实验表明,**使用中层特征比使用高层特征,实验性能更好。**在特征处理中,简单地使用高层特征会导致性能下降。
CANet认为的原因:
中层特征是由看不见的类共享的对象部分组成,可能蕴含着未知类别的特征。
作者认为的原因:
- 高层特征中包含的语义信息比中间层特征更class-specific(特定于类),所以高层特征更有可能使模型对未见类的泛化能力产生负面影响。
- 高层特征直接提供语义信息,在识别属于训练类别的像素和减少训练损失上的贡献大于中层特征,从而导致对训练类的偏爱。
所以,缺乏泛化性和对训练类的偏好都对未知类的测试产生影响。
但与此同时,之前的分割框架都是利用高层特征为最终预测提供语义线索。
因此,问题动机转化为,如何在训练不敏感的方式中利用高层特征信息来增强小样本分割的性能。
问题2:支持和查询样本空间不一致
现有大多方法利用掩膜全局平均池化从训练图像中提取类别向量。但是,因为查询图像中的目标可能会比支持样本大得多或小得多,或者姿态相差很大,所以使用全局平均池化会导致空间信息不一致。
因此,由于全局平均池化会导致空间信息不一致,直接使用MAP匹配查询特征的每个像素并不理想。
方法
-
针对高层特征误用导致的泛化损失问题 —— 先验泛化方法
利用查询和支持图像的高层特征来生成模型的“先验值”(无需训练)
- 先验信息有助于模型更好地识别查询图像;
- 高层特征是从预先训练的ImageNet中得到的,所以生成先验的过程并没有增加额外的训练过程,所以生成的模型不会失去对未见类的泛化能力。
- 极大地提高了预测精度,保持了高泛化性
-
针对支持和查询样本空间不一致问题 —— FEM方法
通过整合支持特征和先验信息,利用条件化的跨尺度信息交互自适应地丰富查询特征
-
水平地交互查询特征与每个尺度中的支持特征和先验掩码
-
垂直利用层次关系,通过自顶向下的信息路径,从精细特征中提取必要信息,丰富粗特征图
-
水平和垂直优化后,收集不同尺度的特征,形成新的查询特征
-
总体框架
-
通过预训练的CNN,分别得到支持图像和查询图像的高层特征和中层特征。
-
利用中层特征生成查询和支持特征。
-
利用高层特征生成先验掩膜。
-
特征富集模块(FEM)利用支持特征和先验掩膜丰富查询特征。
-
损失函数: L = σ n ∑ i = 1 n L 1 i + L 2 L=\frac{\sigma}{n}\sum_{i=1}^nL_1^i+L_2 L=nσ∑i=1nL1i+L2 不同空间大小在New Query feature上的损失 + 最后的预测损失
Prior generation
目的:将高层特征转化为先验掩膜(prior mask)
- 先验掩膜:像素属于目标类的概率。具体来说,揭示查询特征和支持特征之间像素级的对应关系。掩膜上的一个高值像素表明对应的查询像素与支持特征中的至少一个像素具有高对应关系。所以此像素很可能处于查询图像的目标区域。
- 此处的支持特征背景被设为0,所以查询特征的像素与支持特征上的背景没有对应关系。
构造先验掩膜:
-
计算查询特征 X Q X_Q XQ 和 X S X_S XS 每个像素间的余弦相似度。
c o s ( x q , x s ) = x q T x x ∥ x q ∥ ∥ x s ∥ q , s ∈ { 1 , 2 , . . . , h w } cos(x_q,x_s)=\frac{x_q^Tx_x}{\lVert x_q \rVert \lVert x_s \rVert} \ \ q,s \in \{1,2,...,hw\} cos(xq,xs)=∥xq∥∥xs∥xqTxx q,s∈{1,2,...,hw} -
取所有支持像素中最大相似度作为响应值 c q c_q cq 。
c q = m a x s ∈ { 1 , 2 , . . . , h w } ( c o s ( x q , x s ) ) C Q = [ c 1 , c 2 , . . . , c h w ] ∈ R h w × 1 c_q = \underset{s \in \{1,2,...,hw\}}{max}(cos(x_q,x_s)) \\ C_Q = [c_1,c_2,...,c_{hw}] \in R^{hw×1} cq=s∈{1,2,...,hw}max(cos(xq,xs))CQ=[c1,c2,...,chw]∈Rhw×1
- 归一化处理。
Y Q = Y Q − m i n ( Y Q ) m a x ( Y Q ) − m i n ( Y Q ) + ϵ Y_Q = \frac{Y_Q-min(Y_Q)}{max(Y_Q)-min(Y_Q)+\epsilon} YQ=max(YQ)−min(YQ)+ϵYQ−min(YQ)
FEM(feature enrichment module)
输入:查询特征、支持特征、先验掩膜
输出:新的查询特征
分为三个过程:Inter-Source Enrichment、Inter-Scale Interaction、Information Concentration。
-
Inter-Source Enrichment
- projects input to different scales
- interacts the query feature with support feature and prior mask in each scale independently
水平:三类特征融合
-
Inter-Scale Interaction
- selectively passes essential information between merged query-support features across different scales
垂直:不同尺度融合
-
Information Concentration
- merges features in different scales to finally yield the refined query feature
Inter-Source Enrichment
-
通过自适应平均池化,生成n个不同空间大小的子查询特征。
相应地,将支持特征扩展到不同空间大小的特征图,
将先验掩膜调整为对应空间大小 (这些怎么操作的?)
-
拼接三类特征,卷积处理后得到各尺度的查询特征。
Inter-Scale Interaction
值得注意的是,在向下采样的特征图中可能不存在微小物体
Top-down Path: 自适应地将信息从细粒度特征传递到粗粒度特征,有助于在FEM中构建层次关系。
目标检测的PANet?
尺度间合并模块中的残差连接用于保持输出特征中主特征的完整性
Information Concentration
通过插值和拼接所有尺度的查询特征图 X Q , n e w i , i ∈ { 1 , 2 , . . . , n } X_{Q,new}^i,i\in \{1,2,...,n\} XQ,newi,i∈{1,2,...,n},得到最后新的查询特征图。
值得注意的是,作者添加了中间监督。即将分类头添加到每个尺度的 X Q , n e w i X_{Q,new}^i XQ,newi 后面进行预测。
实验
Results
- PASCAL-5i
- COCO-80i