清理没有对应图像的标签文件。将遍历 train、val 和 test 子目录,检查每个子目录中的图像和标签文件,并删除没有对应图像的标签文件,同时使用 tqdm 显示进度条。
import os
from tqdm import tqdm
# 设置数据集根目录路径
dataset_root = r'E:\data\VisDrone2019-DET\VisDrone2019\filtered_dataset'
# 定义数据集的子目录(train, val, test)
subdirs = ['train', 'val', 'test']
for subdir in subdirs:
image_folder = os.path.join(dataset_root, 'images', subdir)
label_folder = os.path.join(dataset_root, 'labels', subdir)
# 检查图像和标签文件夹是否存在
if not os.path.exists(image_folder) or not os.path.exists(label_folder):
print(f'Skipping {subdir} because folder does not exist.')
continue
# 获取所有图像文件名(不包含扩展名)
image_files = {os.path.splitext(filename)[0] for filename in os.listdir(image_folder) if os.path.isfile(os.path.join(image_folder, filename))}
# 获取所有标签文件名(不包含扩展名)
label_files = {os.path.splitext(filename)[0] for filename in os.listdir(label_folder) if os.path.isfile(os.path.join(label_folder, filename))}
# 找出没有对应图像的标签文件
labels_without_images = label_files - image_files
# 删除没有对应图像的标签文件,使用tqdm显示进度条
for label in tqdm(labels_without_images, desc=f'Processing {subdir} labels'):
label_path = os.path.join(label_folder, f'{label}.txt')
os.remove(label_path)
print('Finished cleaning up labels.')