深度学习的一些工具函数

最新推荐文章于 2024-07-18 14:22:38 发布

jieshenai

最新推荐文章于 2024-07-18 14:22:38 发布

阅读量355

点赞数 9

分类专栏： PyTorch 文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/sjxgghg/article/details/136402632

版权

PyTorch 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文介绍了在深度学习项目中如何有效地划分数据集，包括针对小数据集的随机打乱方法，以及处理大数据集时根据比例或数量划分的get_dataset_split_num函数。还详细讲解了cut_datasets函数，用于根据给定比例切分训练、验证和测试数据集。

摘要由CSDN通过智能技术生成

文章目录

简介

记录深度学习编写程序过程中的一些工具函数

数据集

划分数据集

数据集划分思路：

若数据集很小，直接随机打乱
```
	import random  
	random.shuffle(data)
```

若数据集很大，选择随机打乱下标，根据下标实现数据集划分

get_dataset_split_num

无需输入训练集，只输入验证集和测试集的比例或具体数量

def get_dataset_split_num(n, valid=0, test=0):
	"""
		n: 数据集数量
		valid, test: 可为比例和具体数值
	"""
    if valid < 1:
        assert test < 1
        assert valid + test > 0
        valid_num = int(n * valid)
        test_num = int(n * test)
        train_num = n - valid_num - test_num
    else:
        valid_num = valid
        test_num = test
        train_num = n - valid_num - test_num
    return train_num, valid_num, test_num

运行:

train_num, valid_num, test_num = get_dataset_split_num(100, valid=0.2, test=0.31)
train_num, valid_num, test_num = get_dataset_split_num(100, valid=20, test=31)

cut_datasets
数据集打乱

def cut_datasets(arr, valid=0, test=0):
	"""
		arr: 为下标数组
	"""
    train_num, valid_num, _ = get_dataset_split_num(len(arr), valid, test)
    a1 = arr[:train_num]
    a2 = arr[train_num:train_num + valid_num]
    a3 = arr[train_num + valid_num:]
    return a1, a2, a3