使用paddlex划分数据集
第一节课我们讲了如何将编号标注完成后的数据集放置在不同文件夹后,导出COCO格式的训练集与测试集标注文件。这里我们介绍另一种方法:
只需要提供数据集的路径,路径文件夹中包含对应的图像文件夹和标注文件夹即可,再指明训练集测试集验证集划分比例,就会将标注数据集按比例划分为训练集与测试集。
!pip install paddlex
!paddlex --split_dataset --format VOC --dataset_dir /home/aistudio/data --val_value 0.2 --test_value 0.1
运行程序就会生成对应的voc类型的划分文件,可以直接对应修改配置信息中的VOC配置文件。
将VOC数据集转化为COCO类型数据集
第一节课时我们也讲过了对应的内容,也给出了操作的代码。这里我们再提供一个新的方法,使用tool文件夹中的代码完成数据集类型转换。
!python /home/aistudio/PaddleDetection/tools/x2coco.py \
--dataset_type voc