SKlearn数据集
1.数据集的划分
(1) 训练集和测试集
如果拿到数据全都用来训练一个模型?
所以就需要把数据集划分为训练集和测试集
划分比例:
训练集(建立模型) | 测试集 (评估模型是否有效) |
---|---|
70% | 30% |
80% | 20% |
75% | 25% |
(2)对数据集进行分割
sk.model_selection.train_test_split( *arrays, **options)
#x数据集的特征值
#y数据集的标签值
#testsize 测试集的大小,一般为float
#random_state 随机数的种子,不同的种子会造成不同的随机采样结果。相同的种子采样结果相同。
#return训练集特征值,测试集特征值,训练标签,测试标签(默认随机取)
代码实现:
from sklearn.datasets import load_iris, fetch_20newsgroups, load_boston
from sklearn.model_selection import train_test_split
li = load_iris()
# 注意返回值, 训练集 train x_train, y_train 测试集 test x_test, y_test x和y分别表示特征值和目标值
x_train, x_test, y_train