P1,YOLOV3,简单总结下比较特别的地方:
1.Bounding Box 预测。中心值x,y的预测,是通过一个sigmoid 函数,来预测在每一个单元(cell)的相对位置。而不像普通那种预测一个相对于anchor的offset。然后BBOX预测损失是用的MSE(一般都是用smooth L1)。
2.Anchor标签。每一个GT只会与IOU最大的一个anchor匹配(这训练估计起飞,或许这就是You Only Look Once的核心思想 ),其余IOU大于0小于0.5的anchor,作为负样本。(但这一张图通常只有几个目标,要是最后的anchors有100个,岂不是百分之九十几都是负样本?很困惑,在线等解答。)
3.类别预测。 没有使用softmax,而是对每一个类用二分类(类似逻辑回归)。作者的解释是,很多目标是多标签的。
4.Anchor size。首先抽了三次feature map(应该是用FPN架构,没画网络结构图,看着费劲),每个map都有三种anchor size,这些anchor size 是通过聚类得到的(不再是人为设置scale 和ratio)
5.BackBone: Darknet-53作者还解释了下为什么叫这个名字(It has 53 convolutional layers so we call it.... wait for it..... Darknet-53!)(其实就是resnet的bottleneck去掉了1*1升维部分,直接使用了3*3去升维),然后和res101分类性能对比了下,果然ResNet又一次地被吊打,准确率、计算效率、速度全盘被吊打。
6.训练: multi-scale training。