1.边界框预测
YOLOv3采用3个尺度的特征图(当输入为416x416时)(13x13)、(26x26)、(52x52)进行预测,每个位置称为一个网格点,每个网格点预测三个先验框。所以通过k-means得到9个先验框,划分到3个尺度特征图中,有助于实现小目标的预测。每个先验框有4个位置信息,1个边框置信度和n个类别信息。
先验:基于常识或者群体发生的概率。相对于后验概率,比如一个人有可能是癌症的症状,根据后验概率= 先验概率x实际概率,先验概率由于人群得癌症的人很少所以很小,实际概率可能很大,但最终的后验概率可能很低,神经网络一般的分类概率即后验概率。
先验框:物体比较可能出现的位置框。
边框置信度:网格所包含对象的概率*预测的边界框与真实边界框的交并比。
2.免费礼品包
目标检测的训练是线下的,所以采用更好的训练方法只会增加训练成本而不会增加推断成本,常用的方法有数据扩增。
2.1 数据扩增
数据扩增的目的是增加输入图像的可变性,从而对来源于不同环境的图像具有更好的鲁棒性。
2.1.1传统方式
传统的数据增强方法主要针对像素信息进行处理,主要从光度畸变和几何畸变两方面进行处理。
光度畸变:颜色空间、图片亮度、对比度、色调、饱和度、噪声等;
几何畸变:尺度缩放、裁剪、翻转、旋转等;
2.1.2
不同于传统方法不改变原像素值,这里通过随机擦除和随机选择区域进行随机填充和图像叠加等
2.2 样本不平衡问题
硬反例挖掘和在线硬样本挖掘
focal loss
2.3 预测框回归的目标函数
传统的目标检测使用均方误差,比较预测的坐标信息与实际的坐标信息之间的差距,想象一下,大目标的候选框些许偏差是可以接受的,但是均方误差可能会导致损失很大,这里采用比例不变的IOU参与计算损失,即预测框和真实框的重叠比例。
3.特价包
对于只增加了少量推理成本却能显著提高目标检测精度的插件模块和后处理方法,成为“特价包”。一般来说,这些插件模块用于增强模型中的某些属性,如扩大感受野、引入注意机制、增强特征集成能力等,后处理是筛选模型预测结果的一种方法。
后处理方法中的NMS,非最大值抑制。忽略对同一目标预测不好的预测框,只保留预测最好的一个预测框。