tx、ty:预测的坐标偏移值,经过sigmoid变换。
Cx、Cy:在本图是1,这样经过计算后,就得到了预测bbox的中心点坐标。
tw、th:尺度缩放。
bx、by:预测出的bbox的中心点坐标。通过计算得出。
bw、bh:预测出的bbox的宽和长。通过计算得出。
Pw、Ph:anchor box经过缩小之后,映射到feature中的宽和高。
1、yolov3中每个grid cell在feature map中的宽和高均为1。
2、Cx、Cy在feature map中是grid cell的左上角坐标,本图的Cx=1,Cy=1,就是第二行第二列的grid cell的左上角坐标。
3、Pw、Ph是anchor box经过缩小之后,映射到feature中的宽和高,是通过原始坐标/stride后得到的,其中stride代表每个像素对应原图的大小。
4、网络学习的是tx、ty、tw、th这四个offset。