多尺度特征融合------笔记
笔者想将多尺度融合技术结合到自己的研究领域中,但是对多尺度这一理论不太熟悉,整理下多尺度相关概念。😉开始攻克难题
1. 基本概念:
💕1.1 何为特征:
每个物体,我们总可以用一些词语或部件来描述它,比如人脸的特征:两个眼睛、一个鼻子和一个嘴巴。对于图像而言,我们需要计算机去理解图像,描述图像就需要计算机去取得图像的特征,对图像比较全面的描述即一个二维矩阵,矩阵内的每个值代表图像的亮度。有时候我们需要让计算机更简化的来描述一个图像,抓住一些显著特征,这些特征要具有一些良好的性质,比如局部不变性。局部不变性一般包括两个方面:尺度不变性与旋转不变性。
-
尺度不变性:人类在识别一个物体时,不管这个物体或远或近,都能对它进行正确的辨认,这就是所谓的尺度不变性。尺度空间理论经常与生物视觉关联,有人也称图像局部不变性特征为基于生物视觉的不变性方法。
-
旋转不变性:当这个物体发生旋转时,我们照样可以正确地辨认它,这就是所谓的旋转不变性。
💕1.2 局部不变特征:
全局特征:从整个图像中抽取的特征。较多的运用在图像检索领域,如图像颜色直方图。
局部特征:从图像的局部区域中抽取的特征(这个局部区域往往是图像中的一个像素及它周围的邻域)。
💕1.3 尺度
尺度可以说是感兴趣的区域大小。通俗来说,你拍摄一个目标,离得近就获得一个大尺度图像,离得远就获得小尺度图像。尺度不变性,一般是针对特征点(or兴趣点)检测算法而言,即算法对图像的尺度变化要具备一定的鲁棒性。
💕1.4 语义信息
语义信息,通俗的理解就是比如 人类能定义的一些特征。比如,图片里一个人的话,比如,眼睛,鼻子耳朵嘴巴啊,或者胳膊 腿,脸部肤色,皱纹等。也就是某个对象的一些局部特征,语义信息有高有低,
2. 图像尺度空间理论
当用一个机器视觉系统分析未知场景时,计算机没有办法预先知道图像中物体尺度,因此,我们需要同时考虑图像在多尺度下的描述,获知感兴趣物体的最佳尺度。
所以在很多时候,我们会在将图像构建为一系列不同尺度的图像集,在不同的尺度中去检测我们感兴趣的特征。比如:在Harr特征检测人脸的时候,因为我们并不知道图像中人脸的尺寸,所以需要生成一个不同大小的图像组成的金字塔,扫描其中每一幅图像来寻找可能的人脸。
3. 多尺度特征融合
💕3.1 基本概念
在很多工作中,融合不同尺度的特征是提高分割性能的一个重要手段。现在的检测和分割网络基本都喜欢用卷积神经网络通过逐层抽象的方式来提取目标的特征。CNN卷积神经网络的层数的加深的过程,是特征提取从低层次到高层的语义特征的提取过程。低层特征分辨率更高,包含更多位置、细节信息,但是由于经过的卷积更少,其语义性更低,噪声更多。高层特征具有更强的语义信息,但是分辨率很低,对细节的感知能力较差。如何将两者高效融合,取其长处,弃之糟泊,是改善分割模型的关键。
另一种说法:
高层网络的感受野比较大,可以理解为CNN从更加全局的角度对图像做特征提取,因此产生更加高层次的语义信息,语义信息表征能力强,但是特征图的分辨率低,几何信息的表征能力弱(空间几何特征细节缺乏);低层网络的感受野比较小,几何细节信息表征能力强,虽然分辨率高,但是语义信息表征能力弱。高层的语义信息能够帮助我们准确的检测或分割出目标。因此我们在深度学习中把这些特征全部加在一起对于检测和分割都很有效果。
上图就是一个典型的多尺度融合网络结构。下采样倍数小(一般是浅层)的特征感受野小,适合处理小目标,小尺度特征图(深层)分辨率信息不足不适合小目标,在yolov3中对多尺度检测的理解是,1/32大小的特征图(深层)下采样倍数高,所以具有大的感受野,适合检测大目标的物体,1/8的特征图(较浅层)具有较小的感受野,所以适合检测小目标。对于小目标,小尺度feature map无法提供必要的分辨率信息,所以还需结合大尺度的feature map,这也就是在进行分割和检测网络中如果进行多次的下采样操作很容易到底小目标的丢失。
参考:
多尺度特征融合
多尺度特征的融合操作