将一个大文件夹内的图片拆分为多个子文件夹
最近在做一个文本识别的任务,但是由于下载的数据集较大,一个压缩包内有360万张图片,虚拟机ubuntu性能较差,无法解压。所以就在windows下将文件夹拆分成多个子文件夹。
首先生成多个子文件夹:
import os
for i in range(1,100):
save_dir = "./chinese_ocr_datapart/train/%03d" % i
if os.path.exists(save_dir):
shutil.rmtree(save_dir)
os.mkdir(save_dir)
然后将训练集的label.txt文件分离到多个txt文件:
index = 1
count = 0
f_in = open("./chinese_ocr_datapart/train_label/%03d.txt" %index, "w")
with open("data_train.txt", "r") as f_out:
for line in f_out:
count += 1
f_in.write(line)
if count == 36440:
f_in.close()
count = 0
index +=