paddle中进行数据集解压及划分数据集

最新推荐文章于 2023-06-01 17:48:44 发布

与其在风雨中逃避，不如在雷电中舞蹈

最新推荐文章于 2023-06-01 17:48:44 发布

阅读量2.5k

点赞数 1

分类专栏：学习记录文章标签： python

本文链接：https://blog.csdn.net/weixin_43468161/article/details/106585115

版权

在paddle中使用

下面的代码是将指定文件夹下的数据压缩包进行解压到指定文件夹中。

# 将测试数据集放入./dataset目录下
%cd ~
!cp data/liversegtrain.zip dataset/
!unzip -o data/liversegtrain.zip -d dataset/

第一幅为解压前的liversegtrain,第二幅为解压后的文件。

接下来对解压后的数据进行分组，分为训练数据集、验证数据集和测试数据集。

import os
base_dir = "/home/aistudio/dataset/liversegtrain/" # CT图片所在路径
img_dirs = ["mask_liver", "patient"] # 两类CT图片文件夹名

file_names = ["train_list.txt", "val_list.txt", "test_list.txt"]
splits = [0, 0.6, 0.8, 1] # 按照 6 2 2 的比例对数据进行分组

for split_ind, file_name in enumerate(file_names):
    with open(os.path.join("./dataset", file_name), "w") as f:
        for typ