目前最大的车牌数据集就是 CCPD,分别有CCPD2019与CCPD2020,其中数据的存储格式是一致的,主要信息包含在图像数据的名称中,如下图所示
01-86_91-298&341_449&414-458&394_308&410_304&357_454&341-0_0_14_28_24_26_29-124-24.jpg
其中,车牌信息,位置信息等均存储与文件名中
因此需要对数据集进行清洗,解析目标检测相应的标注信息。
以 CCPD2019为例子,
因CCPD2019存在多个不同情况下的数据集
本博文主要以ccpd_base为例子来进行解析操作(其他文件夹的数据解析是一致的)
1、首先获取文件夹中图像数据列表
for filename in os.listdir(path):
print(filename)
2、针对没一张图像,依据名称来进行解析
2.1、先通过"-"来对图像名称进行拆分,获取对应的目标(车牌)的坐标信息
list1 = filename.split("-", 3) # 第一次分割,以减号'-