SKlearn数据集划分，数据集接口，分类数据集和回归数据集分别下两个看看

本文链接：https://blog.csdn.net/sinat_41901394/article/details/109457689

本文介绍了如何使用SKlearn进行数据集划分，包括训练集和测试集的划分，并详细讲解了数据集接口，如分类数据集和回归数据集。以鸢尾花和波士顿房价数据集为例，展示了数据的加载和主要属性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这里写目录标题

SKlearn数据集

SKlearn数据集

1.数据集的划分

（1）训练集和测试集

如果拿到数据全都用来训练一个模型？
所以就需要把数据集划分为训练集和测试集
划分比例：

训练集（建立模型）	测试集（评估模型是否有效）
70%	30%
80%	20%
75%	25%

（2）对数据集进行分割

sk.model_selection.train_test_split( *arrays, **options)
#x数据集的特征值
#y数据集的标签值
#testsize 测试集的大小，一般为float
#random_state 随机数的种子，不同的种子会造成不同的随机采样结果。相同的种子采样结果相同。
#return训练集特征值，测试集特征值，训练标签，测试标签（默认随机取）

代码实现：

from sklearn.datasets import load_iris, fetch_20newsgroups, load_boston
from sklearn.model_selection import train_test_split

li = load_iris()



# 注意返回值, 训练集 train  x_train, y_train        测试集  test   x_test, y_test   x和y分别表示特征值和目标值
x_train, x_test, y_train