基于弱监督的实例分割
一. 使用 Peak Response Map(PRM)实现对图像中目标的位置的定位。
1.1 在全卷积神经网络最后的分类器部分(CNN classifiers)可以生成类响应图(class response maps),类响应图可以指出每个图像的位置点的分类置信度(classification confidence)。其中类响应图局部最大值(即峰值),对应于实例的视觉最强的部分,也就是特征最明显的部分。文章中首先在训练网络时,设计出一个在类响应图上出现刺激峰值(stimulate peaks)的网络。在测试时,出现的峰值部分,通过反向传播,生成突出显示每个对象信息区域的map,称为峰值响应图(PRM)。如下图所示
图注:峰值响应图(PRM)生成与利用
1.2PRM
通过简单的移除全局池化层并连接1*1的卷积层,将CNN分类网络转换成全卷积神经网络(FCN),此时转换后的网络最后一层可输出类响应图。
Peak Stimulation: 为了[刺激]类响应图中出现峰值,此文中在顶层最后构建一个峰值刺激层(peak stimulation layer),如上图所示。考虑到标准的网络,令表示顶层卷积的类响应图,其中C表示分类的类别数,H*W表示响应图的大小。因此,峰值刺激层的输入为M,输出为不同类的置信值。第c个响应的峰值被定义为窗口大小为r内的局部最大值。(其中,发现峰值区域的半径r设定为3),而峰值位置的设定为:其中N c是第c类的有效峰值数。
在前向传播过程中,卷积核,即采样核(sampling kernel),通过计算是用于生成第c个对象类别的分类置信度分数(classification confidence score)。每一个在核元素(x,y)位置的值为,其为:
其中 是第k个峰值的坐标值,在此文中f是 Dirac delta function,Dirac delta函数用于聚合特征山峰,只有山峰部分的特征;因此,通过类响应图M c和采样内核G c之间的卷积来计算第c类s c的置信度得分。则:
从方程式可以看出。 网络仅使用峰值做出最终决定; 自然地,在反向传播期间,梯度由G c分配到所有峰值位置,如:
其中δc是顶部卷积层的第c个通道的梯度,L是分类损失。
通过模型训练过程中分析,类响应图是通过所有感知域(RF)的密集采样来计算的,其中大多数RF是不包含有效实例的负样本。与无条件地从极端前景 - 背景不平衡集合中学习的传统网络相比,峰值刺激迫使通过类峰值响应估计的稀疏信息RF(潜在正面和硬负面)的学习,从而防止了大量的 在培训过程中,通过压倒学习的表现形式容易产生负面影响。
1.3 峰值反向传播(检测实现的部分)
我们提出了峰值的概率反向传播过程,以进一步生成精细详细和实例感知表示,即峰值响应图。 与之前自上而下的注意力模型相比,它们寻求输出类别中最相关的神经元来生成类感知注意力图,我们的公式明确地考虑了感受野,并且可以从中提取实例感知视觉线索。 特定的空间位置,即类峰值响应。 峰值反向传播可以被解释为步行者从峰值(顶层)开始并随机行走到底层的过程。 然后将底层中每个位置的自顶向下相关性表示为其由步行者访问的概率。
考虑到有单个过滤器的卷积层 W ∈R kH×kW ,考虑具有用于数学简化的单个滤波器H的卷积层,输入和输出特征映射表示为U和V,其中每个空间位置可以分别由U ij和V pq访问。 访问概率P(U ij)可以通过P(V pq)和两个映射之间的转移概率得到,如:
其中转变的概率定义为 :
U ij是U,W + = ReLU(W)的位置(i,j)的自下而上激活(在前向传递中计算),其其丢弃负连接,并且Z pq是保证P p的归一化因子。 ,q P(U ij | V pq)= 1.注意,在采用ReLU作为传递函数的大多数现代CNN中,负权重对增强输出响应没有正面影响,因此被排除在传播之外。
其他常用的中间层,例如平均合并和最大合并层,被认为是执行输入的仿射变换的相同类型的层; 因此,相应的反向传播可以以与卷积层相同的方式建模。
利用由4和.5定义的概率传播,我们可以以自上而下的方式为每个类峰值响应定位最相关的空间位置,以生成精细详细的实例感知视觉提示,称为峰响应图。