python切分数据集_Python数据集切分实例

最新推荐文章于 2024-05-31 21:49:47 发布

weixin_39874269

最新推荐文章于 2024-05-31 21:49:47 发布

阅读量2k

点赞数

文章标签： python切分数据集

本文链接：https://blog.csdn.net/weixin_39874269/article/details/111420872

版权

本文介绍了如何使用Python将数据集按照固定比例稳定地切分为训练集和测试集，通过设置np.random.seed确保每次切分得到相同结果。示例代码中展示了如何对numpy数组进行切分，并提供了改进版函数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在处理数据过程中经常要把数据集切分为训练集和测试集，因此记录一下切分代码。

'''

data:数据集

test_ratio:测试机占比

如果data为numpy.numpy.ndarray直接使用此代码

如果data为pandas.DatFrame类型则

return data[train_indices],data[test_indices]

修改为

return data.iloc[train_indices],data.iloc[test_indices]

'''

def split_train(data,test_ratio):

shuffled_indices=np.random.permutation(len(data))

test_set_size=int(len(data)*test_ratio)

test_indices =shuffled_indices[:test_set_size]

train_indices=shuffled_indices[test_set_size:]

return data[train_indices],data[test_indices]

测试代码如下：

import numpy as np

import pandas as pd

data=np.random.randint(100,size=[25,4])

print(data)

结果如下：

从上图可以看出，原数据集按照5:1被随机分为两部分。但是此种方法存在一个缺点C每次调用次函数切分同一个数据集切分出来的结果都不一样，因此常在np.rand

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39874269

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

python数据集切分_机器学习笔记——数据集分割

weixin_39528219的博客

12-06

2258

在模型训练之前，要首先划分训练集与测试集，如何对原始数据集进行训练集与测试集的划分？训练集与测试集的比例各占多少？如何保证各自内部标签分布平衡都会影响模型训练的最终效果。好在R和Python中有现成的数据集分割函数，避免手动写函数导致划分比例不合理、训练集与测试集的样本的结构与总体不均衡的问题。R语言中caTools包中的sample.split函数可以用来自动将原始数据集分割成训练集和测试集。方...

切分数据集

weixin_33711641的博客

11-13

1423

2019独角兽企业重金招聘Python工程师标准>>> ...

参与评论您还未登录，请先登录后发表或查看评论

python划分数据集_Python数据集切分实例

weixin_39796152的博客

12-05

1322

在处理数据过程中经常要把数据集切分为训练集和测试集，因此记录一下切分代码。'''data:数据集test_ratio:测试机占比如果data为numpy.numpy.ndarray直接使用此代码如果data为pandas.DatFrame类型则return data[train_indices],data[test_indices]修改为return data.iloc[train_indices...

Python数据集切分实例

09-19

今天小编就为大家分享一篇Python数据集切分实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

干货python划分数据集

qq_42037273的博客

06-09

3221

*coding: utf-8 * Author --LiMing– import os import random import shutil import time def copyFile(fileDir, class_name): image_list = os.listdir(fileDir) # 获取图片的原始路径,列出子文件夹 image_number = len(image_list) train_number = int(image_number * train_rate) train_sa

Python脚本005：将数据集切分成训练集和测试集

qq_41876456的博客

08-07

1512

数据集切分：一般七三分，70%的用来训练，剩下的30%用来测试这个脚本是把CASIA-WebFace进行训练集和测试集的切分，写入txt中 import os path='/home/xl/workstation/Datasets/CASIA-WebFace' datanames = os.listdir(path) for l in datanames: dir='/home/xl/workstation/Datasets/CASIA-WebFace/'+l+'/' label =l.

Python 等分切分数据及规则命名的实例代码

01-20

将一份一亿多条数据的csv文件等分为10份，代码如下所示： import pandas as pd data = pd.read_csv('C:\\Users\\PycharmProjects\\SplitData\\data\\UserBehavior.csv') # 路径则根据个人存放项目文件的习惯 num = ...

python项目源码_实例45_用Python分析文本数据的词频.rar

04-11

在本项目"python项目源码_实例45_用Python分析文本数据的词频.rar"中，我们将探讨如何使用Python语言来对文本数据进行词频分析。词频分析是自然语言处理（NLP）领域的一个基础任务，它有助于理解文本的主要主题和...

python 划分数据集为训练集和测试集的方法

12-25

sklearn的cross_validation包中含有将数据集按照一定的比例，随机划分为训练集和测试集的函数train_test_split from sklearn.cross_validation import train_test_split #x为数据集的feature熟悉，y为label. x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3) 得到的x_train,y_train（x_test,y_test）的index对应的是x,y中被抽取到的序号。若train_test_spli

数据集的切分

热门推荐

haoji007的博客

05-16

11万+

[YOLOv8] 缺陷检测之如何划分训练集，验证集和测试集

老狼工作室的博客

12-15

7912

本文介绍了如何通过python代码把来自AnyLabeling管理的数据集，按照设定的训练集，验证集，测试集的比例进行随机划分，并生成YOLOv8训练时用到的data.yaml文件.

删除符合一定条件的若干行数据

ch206265的博客

10-13

1395

关键： #删除month字段中内容是'1/','2/','6/','7/','8/','9/','10','11','12'的行 data=data[~(data['month'].isin(['1/','2/','6/','7/','8/','9/','10','11','12']))] #仅删除字段名为month的一整列数据 data=data.drop(['month'],axis=1) import pandas as pd import numpy as np #导入数据 #data .

Python纯手动搭建BP神经网络（手写数字识别）

学姐带你玩AI的博客

01-27

2752

Python纯手动搭建BP神经网络

VOC数据集转换实例：目标检测任务必备步骤

在进行目标检测任务时，特别是在利用GitHub上已开源的代码复现论文时，了解并掌握如何将自定义数据集转换为VOC（Visual Object Classes）数据集格式至关重要。VOC数据集是目标检测领域常用的基准数据集，例如VOC ...