使用两个anchor box, 所以输出是3*3*2*8。
首先将一张图片分成3*3的方框, 要构造训练集,需要遍历9个格子, y表示每一个格子的输出向量
此时,第一个格子没有行人,汽车,摩托车, 所以第一个格子的两个pc值都为0。
第八个格子: 输出值 y=[0??????? 1 bx by bh bw 0 1 0], anchor box 2与真实物体框的IoU值比anchor box 1与真实物体框的IoU值更大,那么车子就和向量的下半部分相关
此处把图片划分成3*3的大小, 实际应用中一般把图片划分成19*19, anchor box一般使用5个, 这些方格和输出y就构成了训练集。 输入是每个方格的图片, 输入卷积网络, 最后输出的是3*3*16的向量和真实的标签y进行预测运算。 3*3表示把图片划分成3*3的格子,也就是有3*3个图片输入 *16表示每个图片都会有一个*16的预测输出值, 与真实的y运算,真实的y向量是人为标注的
总结:
首先给定一张图片, 随机生成候选框n个,这些候选框可能超出划分的格子的高度和宽度,这不影响。
接下来,抛弃概率低的预测,
假设有三个检测类别,要做的就是对每一个类别物体单独运行非极大值抑制,处理结果是每个物体只保留一个候选框。
最后如果一个候选框中有多个物体,再使用anchor box来解决。