常用的四个数据集
两个模拟数据集:二分类forge数据集 、回归wave数据集
两个真实数据集:威斯康星州乳腺癌数据集(简称cancer)、波士顿房价数据集
二分类forge数据集
生成数据集
X,y = mglearn.datasets.make_forge()
回归wave数据集
生成数据集
X,y = mglearn.datasets.make_wave(n_samples=40)//n_samples值可设置
威斯康星州乳腺癌数据集(简称cancer)
from sklearn.datasets import load_breast_cancer
cancer=load_breast_cancer()
波士顿房价数据集
from sklearn.datasets import load_boston
boston=load_boston()
利用k近邻算法在二分类数据集forge上评估模型泛化能力
#将数据分为训练集和测试集
from sklearn.model_selection import train_test_split
X,y=mglearn.dataset.make_forge()
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=0)
#利用训练集对分类器进行拟合
from sklearn.neighbors import KNeighborsClassifier
clf = KNeighborsClassifier(n_neighbors=3)
clf.fit(X_train,y_train)
#对测试集进行预测
print(clf.predict(X_test))
#评估模型的泛化能力好坏
print(clf.score(X_test,y_test))