python随机划分数据集五份_机器学习基础5 python Scikit-learn对数据集的划分训练集和测试集...

最新推荐文章于 2023-02-19 15:43:54 发布

蓝星神

最新推荐文章于 2023-02-19 15:43:54 发布

阅读量669

点赞数

文章标签： python随机划分数据集五份

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42123296/article/details/112864806

版权

本文介绍了如何利用Python的Scikit-learn库进行数据集划分，特别是使用`train_test_split`函数来创建训练集和测试集。示例代码展示了如何划分鸢尾花数据集，并解释了`test_size`、`random_state`等关键参数的作用。

摘要由CSDN通过智能技术生成

from sklearn.datasets import load_iris

from sklearn.model_selection import train_test_split

def data_demo():

iris = load_iris()

# print('鸢尾花数据集：', iris)

# print('查看数据集描述：', iris.DESCR)

# print('查看鸢尾花的特征值：', iris.data)

# print('查看鸢尾花的目标值：', iris.target)

# print('查看特征值的名称：', iris.feature_names)

# print('查看目标值的名称：', iris.target_names)

# print('鸢尾花数据集格式：', iris.data.shape,)

# 数据集划分为

x_train,x_test,y_train,y_test=train_test_split(iris.data,iris.target,test_size=0.2,random_state=22)

print('训练集的特征值：',x_train)

print('测试集的特征值：',x_test)

print('训练集的目标值：',y_train)

print('测试集的目标值：',y_test)

if __name__ == '__main__':

data_demo()

Scikit-Learn是用Python开发的机器学习库，其中包含大量机器学习算法、数据集，是数据挖掘方便的工具

数据集划分：sklearn.model_selection.train_test_split(*arrays, **options)

主要参数说明：

*arrays：可以是列表、numpy数组、scipy稀疏矩阵或pandas的数据框

test_size：可以为浮点、整数或None，默认为None

①若为浮点时，表示测试集占总样本的百分比

②若为整数时，表示测试样本样本数

③若为None时，test size自动设置成0.25

train_size：可以为浮点、整数或None，默认为None

①若为浮点时，表示训练集占总样本的百分比

②若为整数时，表示训练样本的样本数

③若为None时，train_size自动被设置成0.75

random_state：可以为整数、RandomState实例或None，默认为None

①若为None时，每次生成的数据都是随机，可能不一样

②若为整数时，每次生成的数据都相同

stratify：可以为类似数组或None

①若为None时，划分出来的测试集或训练集中，其类标签的比例也是随机的

②若不为None时，划分出来的测试集或训练集中，其类标签的比例同输入的数组中类标签的比例相同，可以用于处理不均衡的数据集

通过简单栗子看看各个参数的作用：

①test_size决定划分测试、训练集比例

本博客源码Github地址：

请随手给个star，谢谢！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。