YOLOv3 SPP
Mosaic图像增强
随机选取多张图片,拼接成一张图片 ,能够增加数据的多样性,增加目标个数。由于多张图片进行拼接,因此BN层能够一次性统计多张图像的参数,此时BN层求得的均值和方差更接近整个数据集的均值和方差。
SPP模块
SPP模块步距为1,因此经过maxpool层的大小不发生变化,此时可以实现不同尺度的特征融合。
损失计算
在yolov3网络中所采用的损失是简单的L2损失函数,但是如下图所示,L2损失不能很好的反应两个目标边界框之间的重合程度(圆心到右上角之间的距离一致)。
IOU具有尺度不变性:不论矩形框的面积是大是小,重叠的程度和矩形框的面积无关。
常见的计算公式:
I
O
U
l
o
s
s
=
1
−
I
O
U
IOU_{loss}=1-IOU
IOUloss=1−IOU
其中
A
c
A^c
Ac表示用一个最小的矩形将两个边界框框住的面积,
u
u
u表示两个边界框并集的面积。
但是当两个边界框水平或者垂直对齐的时候,GIOU会退化成普通的IOU损失。
上述提到的两种损失计算都具有收敛速度慢,回归定位不准确的问题,如右下图所示,上述两种损失不能准确的反应定位精度。
因为我们需要计算的目的是让两者的距离更小,所以可以不用面积进行计算而直接是计算两者的距离,这样可以针对于问题有更好的求解方式。其中
b
b
b表示预测中心点的坐标,而
b
g
t
b^{gt}
bgt表示真实中心点的坐标。