SPP空间金字塔池化学习札记1
作者:程序猿刘小川
大家好,我系渣渣辉…不好意思走错片场了,重新介绍下自己,我是新来的博主-程序猿刘小川,初来乍到,还望诸位多多包涵。本博主是跨专业学生,刚开始接触计算机算法,在学习计算算法之余,查看些许专业论文,在学习时有着一些个人的心得。由于学艺不精,初入算法,对一些专业上了理解还比较浅,还望诸位看官多多指教。下面就进入正题,由算法小白刘小川带大家学习第一篇算法论文。
-
论文题目《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》
-
论文作者:Kaiming He , Xiangyu Zhang , Shaoqing Ren , and Jian Sun
各位看官们,这是本博主接触的第一篇论文,论文所提出的算法思想的创新点是进行SPP(Spatial Pyramid Pooling 空间金字塔池化),这一点也使得在进行图片信息处理的时候,比其他算法更进一步提高计算速度。在计算机机器学习领域,有挺多不同的算法,这些算法在一些基础算法上不断地优化、改进、创新,从基础算法发展到CNN(Convolutional Neural Network卷积神经网络)、R-CNN、、Fast-RCNN、Faster-RCNN和SSD等。而本篇论文研究的算法就是与R-CNN进行相对的比较,SPP算法在计算速度上比R-CNN算法快上近100倍。
在我们所学习的现有的CNN算法中,对于已经确定的网络结构中,再输入原始图片时,需要对图片进行固定大小的输入,比如224x224、32x32、96x96等尺寸。然而再输入时,只能输入特定大小的图片,对于众多的图片便需要进行Crop(剪裁)、Swap(转换)或者扭曲变形等。但是在进行这些操作之后,在一定程度上会造成图片信息的损失或失真,会降低图像识别检测的精度。在进行CNN算法的缺陷分析之后,想到了优化方案,那就是今天所以一直讲解对的SPP算法。
SPP算法的有点在于:在已经确定的网络结构中,可以输入任意尺寸的图片,可以不经过剪裁变形等操作,这样确保了图片信息的真实度,提高了图像处理速度和效率,当然在提高速度的同时,精度也有所提高。
正如所见上图便是CNN算法的剪裁、变形示例,这种方式处理的图片限制了识别的精确度。
在传统的CNN算法中,其图像处理的操作流程是:图片经过裁剪、变形后,进行不断的卷积计算,得到卷积层,而后图像处理进入全连接层,而全连接层它就是限制图像大小的罪魁祸首,它需要固定大小的输入。
然而,SPP算法就是来解决这个问题的,使用SPP这种图像处理方式,便能让任何大小的图片输入网络,使得整个网络结构与R-CNN有所不同。
好吧,本博主先就写到这儿吧,各位看官还有需要观看的,请关注博主,等待后续的博文更新…