机器学习5---数据集的划分

最新推荐文章于 2022-06-25 21:36:01 发布

weixin_43543210

最新推荐文章于 2022-06-25 21:36:01 发布

阅读量1.4k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43543210/article/details/107583181

版权

本文介绍了机器学习中数据集的划分，包括训练数据和测试数据的作用及常见比例。讲解了sklearn库的train_test_split API用于划分数据，并探讨了数据集加载API。此外，还讨论了转换器和预估器的概念，如特征工程的转换器以及分类和回归任务的预估器。

摘要由CSDN通过智能技术生成

数据集划分

机器学习一般的数据集会划分为两个部分：
（1）训练数据。用于训练，构建模型。
（2）测试数据。在模型检验时使用，用于评估模型是否有效。
训练数据和测试数据划分比例可以为：70%和30%、80%和20%、75%和25%（较为常用）。

sklearn 数据集划分API

sklearn.model_selection.train_test_split（x,y,**options）
x: 数据集的特征值；
y: 数据集的目标值（标签）
test_size : 测试集的大小，一般为float
random_sate: 随机数种子，不同的种子会造成不同的采样结果。相同种子的采样结果相同。
返回值：训练特征值，测试特征值，训练目标值，测试目标值（其中样本顺序自动打乱）

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

li

最低0.47元/天解锁文章

weixin_43543210

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。