2021-09-08

最新推荐文章于 2023-05-24 10:33:27 发布

double荳荳

最新推荐文章于 2023-05-24 10:33:27 发布

阅读量228

点赞数

文章标签： python 机器学习

本文链接：https://blog.csdn.net/m0_51132284/article/details/120181450

版权

常用的四个数据集
两个模拟数据集：二分类forge数据集、回归wave数据集
两个真实数据集：威斯康星州乳腺癌数据集（简称cancer)、波士顿房价数据集

二分类forge数据集

生成数据集
X,y = mglearn.datasets.make_forge()

回归wave数据集

生成数据集
X,y = mglearn.datasets.make_wave(n_samples=40)//n_samples值可设置

威斯康星州乳腺癌数据集（简称cancer)

from sklearn.datasets import load_breast_cancer
cancer=load_breast_cancer()

波士顿房价数据集

from sklearn.datasets import load_boston
boston=load_boston()

利用k近邻算法在二分类数据集forge上评估模型泛化能力

#将数据分为训练集和测试集
from sklearn.model_selection import train_test_split
X,y=mglearn.dataset.make_forge()
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=0)

#利用训练集对分类器进行拟合
from sklearn.neighbors import KNeighborsClassifier
clf = KNeighborsClassifier(n_neighbors=3)
clf.fit(X_train,y_train)

#对测试集进行预测
print(clf.predict(X_test))

#评估模型的泛化能力好坏
print(clf.score(X_test,y_test))

double荳荳

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
2021-09-08

常用的四个数据集两个模拟数据集：二分类forge数据集、回归wave数据集两个真实数据集：威斯康星州乳腺癌数据集（简称cancer)、波士顿房价数据集二分类forge数据集生成数据集X,y = mglearn.datasets.make_forge()回归wave数据集生成数据集X,y = mglearn.datasets.make_wave(n_samples=40)//n_samples值可设置威斯康星州乳腺癌数据集（简称cancer)from sklearn.da
复制链接

扫一扫