很多深度学习框架都是用VOC数据集格式,例如YOLO。 一般voc解压出来后都包括Annotations, ImageSets, JPEFImages, SegmentationClass , SegmentationObject; 1. Annotations: 主要存放xml文件,每一个xml对应一张图像,并且每个xml中存放的是标记的各个目标的位置和类别(C=20)信息,命名通常与对应的原始图像一样。其中,以(x,y)的格式保存坐标点。