坐标轴是从左上角为原点计算的
YOLO格式的txt文件中包含以下内容:
其中x,y,w,h都做了归一化
而PASCAL VOC标注格式存储的是图片的左上角坐标(Xmin,Ymin),以及右下角坐标(Xmax,Ymax)
PASCAL VOC格式转化成YOLO格式如下图所示
voc数据集XML标注格式:
<?xml version="1.0" encoding="utf-8"?>
<annotation>
<folder>VOC2007</folder>
<filename>test100.mp4_3380.jpeg</filename>#图片格式以及名称
<size>
<width>1280</width>
<height>720</height>#图片大小以及是否为rgb
<depth>3</depth>
</size>
<object>
<name>gemfield</name>#图片中一个目标名为gemfield
<bndbox>
<xmin>549</xmin>#xmin、ymin是含目标框的左上角坐标,xmax、ymax是含目标右下角坐标
<xmax>715</xmax>
<ymin>257</ymin>
<ymax>289</ymax>
</bndbox>
<truncated>0</truncated>
<difficult>0</difficult>
</object>
<object>
<name>civilnet</name>
<bndbox>
<xmin>842</xmin>
<xmax>1009</xmax>
<ymin>138</ymin>
<ymax>171</ymax>
</bndbox>
<truncated>0</truncated>
<difficult>0</difficult>
</object>
<segmented>0</segmented>
</annotation>