python进行训练集、验证集、测试集切分-train_data, dev_data,test_data

最新推荐文章于 2024-08-10 03:31:23 发布

liguo_yao

最新推荐文章于 2024-08-10 03:31:23 发布

阅读量3k

点赞数

文章标签： pyhton 数据切割

本文链接：https://blog.csdn.net/liguo_yao/article/details/103517443

版权

程式如下：
注意：csv文档必须要有表头

#随机切开资料
import csv
import os
import numpy as np

'''将iris.csv中的数据分成train_iris和test_iris两个csv文件，其中train_iris.csv中有120个数据，test_iris.csv中有30个数据'''
labels = []
data = []
a_train_file = 'C:/Users/YY/Desktop/MRPC/111/train_text1.csv'
a_test_file = 'C:/Users/YY/Desktop/MRPC/111/dev_text.csv'
a_file = 'C:/Users/YY/Desktop/MRPC/111/train_text.csv'

seed = 3
np.random.seed(seed)
train_indices = np.random.choice(78170, 48856, replace=False) # 78170是数据总数，48856是按8：2切分的训练集，29314是测试集
residue = np.array(list(set(range(78170)) - set(train_indices)))
test_indices = np.random.choice(len(residue),29314, replace=False) # 如果训练集和测试集综合的数据加起来就是一整个数据集则不需要这个操作

with open(a_file)as afile:
    a_reader = csv.reader(afile)  #从原始数据集中将所有数据读取出来并保存到a_reader中
    labels = next(a_reader)  # 提取第一行设置为labels
    for row in a_reader:  # 将a_reader中每一行的数据提取出来并保存到data的列表中
        data.append(row)


# 生成训练数据集
if not os.path.exists(a_train_file):
    with open(a_train_file, "w", newline='') as a_trian:
        writer = csv.writer(a_trian)
        writer.writerows([labels])  #第一行为标签行
        writer.writerows(np.array(data)[train_indices])
        a_trian.close()

# 生成测试数据集
if not os.path.exists(a_test_file):
    with open(a_test_file, "w", newline='')as a_test:
        writer = csv.writer(a_test)
        writer.writerows([labels])  #第一行为标签行
        writer.writerows(np.array(data)[test_indices])
        a_test.close()