多尺度特征融合

多尺度特征融合------笔记

笔者想将多尺度融合技术结合到自己的研究领域中,但是对多尺度这一理论不太熟悉,整理下多尺度相关概念。😉开始攻克难题

1. 基本概念:

💕1.1 何为特征:

每个物体,我们总可以用一些词语或部件来描述它,比如人脸的特征:两个眼睛、一个鼻子和一个嘴巴。对于图像而言,我们需要计算机去理解图像,描述图像就需要计算机去取得图像的特征,对图像比较全面的描述即一个二维矩阵,矩阵内的每个值代表图像的亮度。有时候我们需要让计算机更简化的来描述一个图像,抓住一些显著特征,这些特征要具有一些良好的性质,比如局部不变性。局部不变性一般包括两个方面:尺度不变性与旋转不变性。

  • 尺度不变性:人类在识别一个物体时,不管这个物体或远或近,都能对它进行正确的辨认,这就是所谓的尺度不变性。尺度空间理论经常与生物视觉关联,有人也称图像局部不变性特征为基于生物视觉的不变性方法。

  • 旋转不变性:当这个物体发生旋转时,我们照样可以正确地辨认它,这就是所谓的旋转不变性。

💕1.2 局部不变特征:

全局特征:从整个图像中抽取的特征。较多的运用在图像检索领域,如图像颜色直方图。

局部特征:从图像的局部区域中抽取的特征(这个局部区域往往是图像中的一个像素及它周围的邻域)。

💕1.3 尺度

尺度可以说是感兴趣的区域大小。通俗来说,你拍摄一个目标,离得近就获得一个大尺度图像,离得远就获得小尺度图像。尺度不变性,一般是针对特征点(or兴趣点)检测算法而言,即算法对图像的尺度变化要具备一定的鲁棒性。

💕1.4 语义信息

语义信息,通俗的理解就是比如 人类能定义的一些特征。比如,图片里一个人的话,比如,眼睛,鼻子耳朵嘴巴啊,或者胳膊 腿,脸部肤色,皱纹等。也就是某个对象的一些局部特征,语义信息有高有低,

2. 图像尺度空间理论

当用一个机器视觉系统分析未知场景时,计算机没有办法预先知道图像中物体尺度,因此,我们需要同时考虑图像在多尺度下的描述,获知感兴趣物体的最佳尺度。

所以在很多时候,我们会在将图像构建为一系列不同尺度的图像集,在不同的尺度中去检测我们感兴趣的特征。比如:在Harr特征检测人脸的时候,因为我们并不知道图像中人脸的尺寸,所以需要生成一个不同大小的图像组成的金字塔,扫描其中每一幅图像来寻找可能的人脸。

3. 多尺度特征融合

💕3.1 基本概念

在很多工作中,融合不同尺度的特征是提高分割性能的一个重要手段。现在的检测和分割网络基本都喜欢用卷积神经网络通过逐层抽象的方式来提取目标的特征。CNN卷积神经网络的层数的加深的过程,是特征提取从低层次到高层的语义特征的提取过程。低层特征分辨率更高,包含更多位置、细节信息,但是由于经过的卷积更少,其语义性更低,噪声更多。高层特征具有更强的语义信息,但是分辨率很低,对细节的感知能力较差。如何将两者高效融合,取其长处,弃之糟泊,是改善分割模型的关键。
另一种说法:
高层网络的感受野比较大,可以理解为CNN从更加全局的角度对图像做特征提取,因此产生更加高层次的语义信息,语义信息表征能力强,但是特征图的分辨率低,几何信息的表征能力弱(空间几何特征细节缺乏);低层网络的感受野比较小,几何细节信息表征能力强,虽然分辨率高,但是语义信息表征能力弱。高层的语义信息能够帮助我们准确的检测或分割出目标。因此我们在深度学习中把这些特征全部加在一起对于检测和分割都很有效果。
在这里插入图片描述
上图就是一个典型的多尺度融合网络结构。下采样倍数小(一般是浅层)的特征感受野小,适合处理小目标,小尺度特征图(深层)分辨率信息不足不适合小目标,在yolov3中对多尺度检测的理解是,1/32大小的特征图(深层)下采样倍数高,所以具有大的感受野,适合检测大目标的物体,1/8的特征图(较浅层)具有较小的感受野,所以适合检测小目标。对于小目标,小尺度feature map无法提供必要的分辨率信息,所以还需结合大尺度的feature map,这也就是在进行分割和检测网络中如果进行多次的下采样操作很容易到底小目标的丢失。

参考:
多尺度特征融合
多尺度特征的融合操作

  • 11
    点赞
  • 65
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
多尺度特征融合结合Transformer是一种用于图像处理和计算机视觉任务的方法,它结合了多尺度特征融合和Transformer模型的优势。下面是该方法的介绍: 1. 多尺度特征融合多尺度特征融合是指将不同尺度的特征图像进行融合,以获取更全局和更丰富的信息。常见的多尺度特征融合方法包括金字塔结构、多尺度卷积等。通过融合不同尺度的特征,可以提高模型对于不同尺度物体的感知能力。 2. Transformer模型:Transformer是一种基于自注意力机制的神经网络模型,最初用于自然语言处理任务,后来也被应用于计算机视觉领域。Transformer模型通过自注意力机制来捕捉输入序列中不同位置之间的依赖关系,从而实现了并行计算和长距离依赖建模。 将多尺度特征融合和Transformer模型结合起来,可以在图像处理任务中获得更好的性能。具体步骤如下: 1. 首先,使用多尺度特征提取方法(如金字塔结构或多尺度卷积)从输入图像中提取不同尺度的特征图像。 2. 然后,将这些特征图像输入到Transformer模型中进行处理。在Transformer模型中,可以使用多个自注意力层来捕捉不同尺度特征之间的依赖关系。 3. 最后,将Transformer模型的输出进行融合,可以使用简单的加权平均或者其他融合策略来得到最终的特征表示。 通过多尺度特征融合结合Transformer,可以充分利用不同尺度的信息,并且能够建模全局和局部之间的依赖关系,从而提高图像处理任务的性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值