YOLOv_3
2. The Deal
2.1. Bounding Box Prediction
我们使用anchor boxes 来预测 bounding boxes,这些anchor box是用k-means算法据类得出的,网络预测每个 bounding box 的tx, ty, tw, th4个坐标,cx, cy 为图像左上角偏移,边框先前的宽度pw和高度ph,则预测位置对应于:
我们使用平方误差损失之和,如果某些坐标预测的 ground truth为
我们的梯度是ground truth 减去我们的预测
这个ground truth 的值可以很容易的通过反演上面的方程来计算。
YOLOv_3 使用Logistic回归预测每个 bounding box 的预测得分,如果bounding box prior 与 ground truth 对象重叠程度大于其他的bounding box prior,则它的Logistic回归的值应该是1。如果bounding box prior 不是最好的,但是overlap超过了一个阈值,我们仍然会忽略该项,并不对该项进行预测。我们使用的阈值是0.5,我们的系统只在每个 ground box 分配一个bounding box prior,如果bounding box prior没有分给ground truth,那么它就不会导致坐标或者类别预测的 loss,only objectness。
2.2. Class Prediction
每个框使用多标签分类来预测bounding box可能包含的类,我们不使用Softmax,因为我们发现它对良好的性能来说是不必要的,相反,我们只是使用独立逻辑分类器,在训练过程中,我们使用二进制交叉熵来进行类预测。
使用Softmax时,它假设每个box都有一个类,但通常不是这样的,多标签方法可以更好的对数据进行建模。
2.3. Predictions Across Scales
YOLOv_3预测三种不同尺度的box,我们的系统从这些尺度中提取特征,使用与特征金字塔网络相似的概念。从我们基本特征提取器中,我们添加了几个卷积层。最后一种预测时三维张量编码bounding box,置信度和类别预测。我们在每个尺度上预测了3个box,因此tensor为N × N × [3 ∗ (4 + 1 + 80)]。
2.4. Feature Extractor
参考:https://blog.csdn.net/leviopku/article/details/82660381
https://blog.csdn.net/chandanyan8568/article/details/81089083