一、YOLOV1
1.训练:对于一个框,会生成两个候选框,候选框中通过与真实值IOU,找最大,对最大的候选框选定(要的框),来作微调(回归x,y,h,w)
2.置信度误差的计算:
置信度分前景背景考虑:
对于某一个候选框,如果这个候选框跟真实值IOU,如果大于某阈值。认为当前框要预测的为真实框,所以希望该框置信度为1(但是因为有IOU的差别,所以其实希望它的置新度为IOU)
如果一个真实框和多个候选框重合,之选IOU最大的作为前景,其他的为背景,希望它们的置信度为0(也就是按照不含物体的置信度误差考虑)。
二、YOLOv2
1.BN层引入
2.大分辨率
(训练时前面时间还是224,后面加10次448训练)
3.网络结构
DarkNet:全用3*3卷积,增大感受野,减少参数
1*1卷积,不改变模型特征图原样的情况下增大模型的深度(偷工减料,既然3*3 1*1效果一样,那就。。。)
4.5个框
通过kmeans的方法,但距离计算通过与5个每个类的代表先验框IOU来计算分类。
6.框多了,MAP不一定好,因为你不能保证每个框都是好的框,都是符合原始物体形状的框,但是识别率确实提高了
6.YOLOV2
对于在最后特征图中的位置预测,采用了相对位置,对于预测值,为0-1区间的grid scale比例,对于tw,th,为相对于之前先验框的比例的对数。
7.
7.多尺度融合 (V2无全连接操作,对于输入图像没有限制)
三、YOLOV3
1.多尺度:术业有专攻
网络设计大中小三种不同大小的特征图,针对不同大小设计不同尺度的先验框大小。
2.SCALE变换(上采样)
3.残差网络
5.网络架构
四、实验