sklearn之Knn实战乳腺癌数据案例
(此处博主不细说Knn算法的基础逻辑,有兴趣可自行百度)
(导入的数据是sklearn自有的乳腺癌数据,sklearn有大量内置的数据,详细可点击sklearn数据集链接)
KNN建模的具体流程如下:
1.划分训练集,测试集
2.用训练集的最大值最小值归一化训练集及测试集
3.交叉验证得出最好的k
4.重新建模,训练训练集,测试测试集
from sklearn.datasets import load_breast_cancer
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
#对数据进行处理
data_breast=load_breast_cancer()
#提取数据的特征
X=data_breast['data']
#提取数据的标签
y=data_breast['target']
#划分数据集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
#数据归一化
from sklearn.preprocessing import MinMaxScaler
mms=MinMaxScaler()
mms.fit(X_train)
X_train=mms.transform(X_train)
X_te