github代码:https://github.com/hszhao/PSPNet/tree/4b53f1c97a5921a99a965a60c0940eec2d46bb06对于场景分类(Scene parsing),主流的方法为全卷积网络即FCN(fully convolutional network),然而FCN的一个缺点就是无法利用全局场景类别信息(global scene category clues).在复杂的场景特征获取中,广泛采用金字塔池化(spatial pyramid pooling,文献18)来获的全局场景的特征,因此本文在FCN的基础上,引入空间金字塔池化,网络结构图如下:
对于输入图像,首先通过一个ResNet网络提取图像特征(feature map),如图3(b);之后将得到的feature map输出到一个全局pool层,再通过一个Pyramid Pooling Module获得多个sub-region的特征表示,之后通过上采样(upsampling),并串联层(concat)所有特征,得到最后的特征表示向量,从而获得图像的局部和全局特征,如图3(c)所