yolo v2会将图片切割成若干个大小为32*32 的小格子,因此,将图片传入时,图片的长和宽都必须是32的倍数,如下所示:
后面的内容中,如果没有说明,都是指的小格子。yolo v2中的box中的数据并不是平常的xmin,ymin,xmax,ymax,而是,offset_x,offset_y,w,h,分别代表的意思是:box中心x坐标在小格子的比例,box中心y坐标在小格子的比例,宽和小格子大小的比,高和小格子大小的比,有点难懂,下面用举几个例子。
黑色的小格子就是上面所说的切分成的小格子,红色的框是生成的anchor或者标注的感兴趣区域,假设红色的点就是红色的框的中心,那么相对于黑色格子来说,x,y的值就是0.9,0.1,假设红色框和黑色小格子大小一样,那么对于红色框来说,红色框在yolo v2中的数据是0.9 0.1 1 1。假设蓝色格子的中心和黑色格子的中心重合,蓝色格子的宽是黑色格子的六倍,高是三倍,则yolo v2中的数据是0.5,0.5,6,3。其他类似,不再举例。
下面就实现如何将xmin,ymin,xmax,ymax类型的类型转换成yolo v2型的数据