深度学习小技巧——数据集处理
在深度学习中,针对数据集的处理是相当重要的,当然不同的数据形式需要进行不同的处理。本次我们针对医疗图像分割的一类数据集进行处理,该类数据集的形式如下
可以看出数据集被分到了好多的文件夹中,而针对每个文件夹,都有着每个图像数据的image和mask,如下图所示
在这种情况下,我们需要将每个文件夹中的不同图像的image和mask分别提取出来,生成两个文件夹,一个是image——放所有数据的原图,一个是mask——放所有数据的标注图,以下代码是进行该操作的代码(如果要自用的话,需要修改路径和创建相应文件夹):
import os
import shutil
# print(os.cpu_count()) cpu的逻辑处理器数量
path = 'E:\image_segmentation_dataset\lgg-mri-segmentation\kaggle_3m'
des='E:\image_segmentation_dataset\lgg-mri-segmentation\masks'
des1='E:\image_segmentation_dataset\lgg-mri-segmentation\images'
dataup_one=[]
for file_name in os.listdir(path):
dataup_one.append(file_name)
dataup_one_len=len(dataup_one)
for i in range(0,dataup_one_len):
path_one=path+'\\'+dataup_one[i]
dataup_two = []
for file_name in os.listdir(path_one):
print(file_name)
file_name_load=path_one+'\\'+file_name
if file_name.find('mask')>=0:
shutil.copy(file_name_load, des)
else:
shutil.copy(file_name_load, des1)