V1
也就是相当于用预测bounding box替换了anchor。
V1问题:
1、对群体性小目标效果很差
2、定位不准
V2
better
1、BN层,可以省略dropout
2、 更高分辨率的分类器(448*448)
3、基于anchor目标边界框预测方式
4、K-means聚类
5、限制预测坐标信息
对预测的坐标信息进行限制,也就是用sigmoid将偏移量限制在0-1,防止通过预测边界框出现在图像的任意一个地方。
6、将高层特征图和低层特征图进行融合,融合一些底层信息,更利于检测小目标
类似于pixelshuffle逆过程
7、多尺度训练,增加网络鲁棒性。
将图片缩放到不同的尺寸进行模型训练。
每迭代是个batches就从320-608里随机选一个作为输入尺寸。
更快:darknet-19网络。这里用224*224和之前网络作比较,但训练还是用本文提出的448*448
V3
1、修改backbone
方框内是残差结构,网络中没有最大池化层
在每个预测特征层上的每个cell会预测三种尺度
V3 SPP
mosaic图像增强:将多张图片拼接在一起增加目标数量
SPP模块:借鉴于SPP网络的SPP模块
因为L2损失不能很好的反应重合程度,因此这里使用IOU loss。
还有更常见计算IOU损失: 1 - IOU
更优的GIoU和LGIoU Loss
Ac是将两个区域圈起来的最小矩形区域,u是两个区域的并集。
但当区域水平或者垂直相交时,会退化成IOU
DIOU
LIoU收敛慢,LGIoU定位不准
b是预测边界框的中心,bgt是真是边界框中心,P2就是求他们之间的欧氏距离,c是两个边界框最小外接矩阵的对角长度。
CIoU
相比于DIoU引入了长宽比
Focal loss
a用于平衡政府样本的权重
α用于平衡正负样本的权重
由于α不能区分容易得样本和困难的样本,于是提出一个可以降低易分样本的损失函数。
文章仅供学习