目录
一、图像卷积
1.卷积
左边的图是(7,7,1)的原图,中间的是3*3的kernel,从左上角开始,把和kernel同等大小的原图的像素,和kernel的元素,对应元素相乘,并把乘积结果相加,得到一个结果,这个过程就是卷积。
如果图片不是单通道而是三通道RGB,即(7, 7, 3),那么卷积核也是三通道,即(3,3,3)。即使卷积核是三通道了,最终卷积结果依旧是(5, 5, 1),因为每计算一次,三个通道的结果均是(5, 5, 1),这三个结果相加,还是(5, 5, 1)。
上面使用一个kernel计算一次,就生成了一张(5, 5, 1)的feature map,如果我们使用256个kernel,那么就拼接起来,生成(5, 5, 256)的feature map。
2.卷积参数
padding: 在原图的最外层补0,如果对(7, 7, 1)的外围增加一圈0,那么用3*3的卷积核卷积完以后,得到的是(7, 7, 1),也就是和原图大小一致了。
stride步长:如果stride=1,就是每卷积一次,就向右移动stride=1个位置,那么最终是从(7, 7, 1)生成(5, 5, 1)的feature map。
根据下面的计算,可以直接算出生成的特征图feature map的尺寸。
3.(1,1)卷积核
灵活降维和升维。比如原来是(28,28,256),那么使用(1,1,256)的卷积核,使用几个卷积核,就会输出几维,比如使用100个,就是(1,1,256,100),卷积后就得到了(28,28,100)。
好处1:减少参数量
在得到同样维度的结果的基础上,能极大地减少参数量。如下图所示。
好处2:能代替全连层
下面的第一次卷积,是直接使用4096个(7,7,512)的卷积核,和原来的(7,7,512)进行全局卷积,得到(1,1,4096),再使用1000个(1,1,4096)进行卷积,就得到了(1,1,1000)的结果。全连接层的方式,和卷积的方式参数一样,因此全连接层就是一种全局的卷积。
二、yolov4的卷积设计理念
yolov4的输出需要包含的信息有:物体的位置信息、有物体的概率、物体的分类,可以写为:(tx, ty, tw, th, obj, cls),其中前四个是物体的位置信息,最后一个cls,根据分类的类别数,维度不同,如果只有1个类别,那就只占1个位置,如果是2个类别,就是2个位置,使用one-hot编码。
而在实际的yolov4的最终输出之前,也就是下面的黄色部分,是(19,19,1024),通过蓝色的18个(当只有1个分类类别的时候,如果有2个,那就是19个卷积核)1*1*1024的卷积核,得到(19,19,18),最后reshape成(3,19,19,tx, ty, tw, th, obj, cls)。
后面的是检测的物体信息,而前面的(3,19,19)的理解如下:
19*19个特征点,等同于把原图分成了19*19个网格,原图的输入是608*608的,那么每一个网格的大小就是608/19=32,每一个特征点只关注对应的网格,判断对应的网格是否有物体。
每个网格预先生成3个先验框,来满足不同尺寸的目标。先验框是根据数据的分布,人为指定的,比如使用k均值聚类的方法。而最前面的3,包含三个数字,分别代表的是:①哪个先验框更适合此物体(通过IOU得到),②物体x轴的位置,③物体y轴的位置
比如下面的物体是人,他在实际图中的网格位置是(4,3) ,而我们的先验框有3个,标号分别是0,1,2,并且0号框最适合这个人,因此对于(4,3)这个位置的网格的输出就是(0,4,3,tx, ty, tw, th, obj, cls),如果是训练好的模型,那么可能是(0,4,3,tx, ty, tw, th, 0.95, 0.98),如果是真实标签,那么这里的标签就是(0,4,3,tx, ty, tw, th, 1, 1),对于剩下的19*19-1个网格也是一样的。
这里面tx, ty, tw, th是相对于先验框的中心点的宽和高的变化量。训练的时候,对于其他的没有物体的位置的网格,物体相关信息全部赋值为0:(: ,: ,:, (0,0,0,0,0,0))
三、Batch Normalize
假设batch=4,也就是输入了4张图,每一张是(608,608,3),通过网络后,得到了(19,19,512)的feature map,总共有4个,也就是(4,19,19,512)。
首先取每张图的第一个通道的(19,19)那么多的数据,求平均,得到第一个通道上的所有4个平均值,再求和,再除以4求个平均。合起来就是:sum(4,19,19) / (19*19*4),这就是这个batch中,第一个通道的均值mu1。
再求剩下的511个通道的均值mu2...mu512,把这512个通道的均值拼接起来,得到一个长度为512的一维向量。这就是batch均值。
同理,按通道求得方差。
对每一个通道,都有2个参数gamma和beta,用于进行尺度变换和偏移,这两个参数是在反向传播中学到的,使得分布和真实的分布越来越像。