大文件夹拆分

本文介绍了如何将一个包含360万张图片的大文件夹拆分为多个子文件夹,以适应虚拟机性能。通过在Windows环境下操作,创建子文件夹,分离并重排label.txt,确保每个子文件夹内的图片与其标签对应,从而有效地管理大型数据集。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

将一个大文件夹内的图片拆分为多个子文件夹

最近在做一个文本识别的任务,但是由于下载的数据集较大,一个压缩包内有360万张图片,虚拟机ubuntu性能较差,无法解压。所以就在windows下将文件夹拆分成多个子文件夹。
首先生成多个子文件夹:

import os
for i in range(1,100):
    save_dir = "./chinese_ocr_datapart/train/%03d" % i
    if os.path.exists(save_dir):
        shutil.rmtree(save_dir)
    os.mkdir(save_dir)

然后将训练集的label.txt文件分离到多个txt文件:

index = 1
count = 0
f_in = open("./chinese_ocr_datapart/train_label/%03d.txt" %index, "w")
with open("data_train.txt", "r") as f_out:
    for line in f_out:
        count += 1
        f_in.write(line)
        if count == 36440:
            f_in.close()
            count = 0
            index +=
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值