空间金字塔是一个非常常见的网络结构,在之前的上色任务中,组里相关人员一直想让我花时间做一些有关于空间金字塔的实验,当时对空间金字塔了解不深,当然现在可能也只是浅尝辄止。
空间金字塔结构可以理解为coarse-to-fine的逐步变换过程,在特征提取的维度可以说是充分利用了在大图片上分辨细节,在小图片上提取宏观维度的特征,达到了可变感受野地效果;同时resize之后的小图也会不断重复的输入空间金字塔子模块,可以说充分的利用了原始的input信息。
从模拟人的角度出发,首先从尺度空间开始理解:找一张原分辨率1024×1024图片,在电脑上观看十分清晰。现在把这图片的分辨率改成512×512,很明显图片看起来不再那么清晰,但是我们依然能判别图上显示的物体,这便是人眼+大脑的优势所在,无论分辨率下降多少,即使原始图片看起来相当模糊,但是人脑可以同样模糊这些细节(或者说自行弥补这些细节)。因此图像金字塔(尺度空间),就相当于一个图片需要获得多少分辨率的量级。如果把一个图片从原始分辨率不停的对其分辨率进行减少,然后将这些图片摞在一起,就可以模拟人眼看到不同分辨率图片的效果。