图像金字塔、特征金字塔(FPN)

图像金字塔

参考:

https://www.jianshu.com/p/436e96200f80

图像金字塔是图像多尺度表达的一种,是一种以多分辨率来解释图像的有效但概念简单的结构。一幅图像的金字塔是一系列以金字塔形状排列的分辨率逐步降低,且来源于同一张原始图的图像集合。其通过梯次向下采样获得,直到达到某个终止条件才停止采样。我们将一层一层的图像比喻成金字塔,层级越高,则图像越小,分辨率越低。

在OpenCV中,有关图像金字塔的操作有pyrup()和pyrdown(),分别用来完成上采样和下采样,其实在OpenCV中有关于图片缩放的更直接的函数,即resize()。

图像金字塔分为两类:高斯图像金字塔和拉普拉斯图像金字塔
高斯金字塔是通过高斯平滑(用高斯函数生成的核进行滤波)和亚采样(通过对进行过高斯平滑处理的图像进行隔行隔列采样而得到)获得一些列下采样图像,也就是说第K层高斯金字塔通过平滑、亚采样就可以获得K+1层高斯图像,每层是按从下到上编号的。

高斯金字塔的上采样和下采样是非线性处理,是不可逆的有损处理,因此,如果下采样后的图像想还原回原来的尺寸的话会丢失很多信息,使图片变得模糊,为了解决这个问题,需要提前保存因下采样而造成的缺失信息,拉普拉斯金字塔可以近似地做到这一点。

FPN

参考:

https://zhuanlan.zhihu.com/p/92005927

为解决目标检测在处理多尺度变化问题时的不足,现在的很多网络都使用了利用单个高层特征(比如说Faster R-CNN利用下采样四倍的卷积层——Conv4,进行后续的物体的分类和bounding box的回归),但是这样做有一个明显的缺陷,即小物体本身具有的像素信息较少,在下采样的过程中极易被丢失,为了处理这种物体大小差异十分明显的检测问题,经典的方法是利用图像金字塔的方式进行多尺度变化增强,但这样会带来极大的计算量。所以提出了特征金字塔的网络结构,能在增加极小的计算量的情况下,处理好物体检测中的多尺度变化问题。

特征金字塔 Feature Pyramid Networks

为了解决之前三种结构的不足之处,这篇论文提出了FPN,即使每一层不同尺度的特征图都具有较强的语义信息。
这种网络结构,能够在增加较少计算量的前提下融合低分辨率语义信息较强的特征图和高分辨率语义信息较弱但空间信息丰富的特征图。
其实在这篇论文之前,也有人提到得出一张既具有高分辨率又具有较强语义信息的特征图进行预测,但FPN的独特之处在于,它是在以特征金字塔为基础结构上,对每一层级的特征图分别进行预测。
在这里插入图片描述

图像的金字塔: import cv2 as cv import numpy as np #降采样:将源图片尺寸缩小一倍,称为源图片尺寸的一半 def pyr_down_demo(image): dst = cv.pyrDown(image) cv.imshow("pyr_down_demo",dst) print(dst.shape) #高斯金字塔 def pyramid_demo(image): temp = image.copy() level = 3 pyramid_image = [] for i in range(3): dst = cv.pyrDown(temp) cv.imshow("pyramid_image"+str(i),dst) pyramid_image.append(dst) temp = dst.copy() return pyramid_image #拉普拉斯金字塔 def lapalian_demo(image): pyramid_images = pyramid_demo(image) level = len(pyramid_images) for i in range(level-1,-1,-1): if(i-1)<0: expand =cv.pyrUp(pyramid_images[i],dstsize= image.shape[:2]) lpls =cv.subtract(image,expand) cv.imshow("lapalian_down_"+str(i),lpls) else: expand = cv.pyrUp(pyramid_images[i],dstsize=pyramid_images[i-1].shape[:2]) lps = cv.subtract(pyramid_images[i-1],expand) cv.imshow("lapalian_down_"+str(i),lps) src =cv.imread("E:/opencv/picture/lena.jpg") pyr_down_demo(src) dst =cv.resize(src,(256,256)) cv.imshow("inital_window",src) cv.imshow("Resize_demo",dst) lapalian_demo(src) pyramid_demo(src) #print(src.shape) cv.waitKey(0) cv.destroyAllWindows() 分析: 图像金字塔是图像中多尺度表达的一种,最主要用于图像的分割,是一种以多分辨率来解释图像的有效但概念简单的结构,简单来说,图像金字塔就是用来进行图像缩放的。 进行图像缩放可以用图像金字塔,也可以使用resize函数进行缩放,后者效果更好。这里只是对图像金字塔做一些简单了解。 两种类型的金字塔: 1, 高斯金字塔:用于下采样。高斯金字塔是最基本的图像塔。原理:首先将原图像作为最底层图像G0(高斯金字塔的第0层),利用高斯核(5*5)对其进行卷积,然后对卷积后的图像进行下采样(去除偶数行和列)得到上一层图像G1,将此图像作为输入,重复卷积和下采样操作得到更上一层图像,反复迭代多次,形成一个金字塔形的图像数据结构,即高斯金字塔。 2, 拉普拉斯金字塔:用于重建图像,也就是预测残差,对图像进行最大程度的还原。比如一幅小图像重建为一幅大图,原理:用高斯金字塔的每一层图像减去其上一层图像上采样并高斯卷积之后的预测图像,得到一系列的差值图像即为LP分解图像。 两种类型的采用: 1) 上采样:就是图片放大(所谓上就是变大),使用PryUp函数。 步骤:先将图像在每个方向放大为原来的两倍,新增的行和列用0填充,再使用先前同样的内核与放大后的图像卷积,获得新增像素的近似值。 2)下采样:就是图片缩小(所谓下嘛,就是变小),使用PryDown函数。下采样将步骤:先对图像进行高斯内核卷积 ,再将所有偶数行和列去除。 总之,上、下采样都存在一个严重的问题,那就是图像变模糊了,因为缩放的过程中发生了信息丢失的问题。要解决这个问题,就得用拉普拉斯金字塔 对于源码分析: 1.高斯金字塔 def pyramid_demo(image): level = 3 pyramid =[] for i in range(level): dst = cv.pyrDown(image) cv.imshow("pyramid_demo"+str(i),dst) pyramid.append(dst) image = dst return pyramid 高斯金字塔实质上就是由大变小,对源图像进行PyrDown(即先高斯模糊,后降采样)得到dst1,然后将dst1作为输入图像再进行PyrDown(即先高斯模糊,后降采样)得到dst2,这个过程循环n次,就会得到n曾金字塔了。源码中n=3. 2.拉普拉斯金字塔 def lapalace_demo(image): pyramid = pyramid_demo(image) levels = len(pyramid) #range(2,-1,-1):计数从2开始,到-1结束(但不包含-1),步长为-1.得到2,1,0 for i in range(levels-1,-1,-1): if i=1时,使用pyrUP指令,输入图像为pyramid[i],输出图像的大小为pyramid[i-1](因为高斯金字塔的pyramid链表前一个元素是后一个元素的两倍),得到结果expand,再用图像相减命令cv.subtract将expand与pyramid[i-1]做差,即可得到残差图像了。 当I<1,即i=0时,此时pyramid[i]是链表中元素最大的了,大小是image图像的一半。我们用pyrUP指令,输入图像为pyramid[i],输出图像的大小为image的尺寸大小,得到残差图像。 最后将各个残差图像显示出来。
YOLOv8是YOLO系列目标检测算法的一种改进版本,它引入了特征金字塔网络(Feature Pyramid Network,FPN)来提升检测性能。下面是YOLOv8改进特征金字塔FPN的介绍: 特征金字塔网络(FPN)是一种用于解决目标检测中多尺度信息处理问题的网络结构。在YOLOv8中,FPN被引入以提取不同尺度的特征并进行融合,从而提高目标检测的准确性和鲁棒性。 YOLOv8中的FPN由两个主要组件组成:上采样路径(Upsample Path)和下采样路径(Downsample Path)。下采样路径负责从输入图像中提取高层次的语义信息,而上采样路径则负责将低层次的细节信息与高层次的语义信息进行融合。 在下采样路径中,YOLOv8使用了一系列的卷积层和池化层来逐渐减小特征图的尺寸,并提取更高层次的语义信息。这些特征图具有不同的尺度,可以用于检测不同大小的目标。 在上采样路径中,YOLOv8使用了反卷积层(或上采样层)来将低层次的特征图进行上采样,使其与高层次的特征图具有相同的尺寸。然后,通过逐元素相加的方式将上采样后的特征图与对应尺度的下采样特征图进行融合。 通过这种上下采样路径的结合,YOLOv8能够同时利用不同尺度的特征信息,从而提高目标检测的性能。FPN的引入使得YOLOv8在处理不同大小的目标时更加准确,并且对于小目标的检测效果也有所提升。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值