准备
相关的库
相关的库包括:
numpy
pandas
sklearn
带入代码如下:
import pandas as pd
import numpy as np
from sklearn.neighbors import KNeighborsClassfier as KNN
数据准备
数据是sklearn的乳腺癌数据。
from skleanr.datasets import load_breast_cancer
data=load_breast_caner()
data主要分为两部分:data和target,把这两部分,设置变量导入DataFrame中可查看基本形状。
X = data.data
y = data.target
sklearn的数据其形式比较固定,data的主要属性有:
data。数据,即变量的值,多行多列
target。目标,即因变量的值,一般是一行
DESCR。描述,可打印出,描述变量、目标
features_names 。X的列名
target_names。Y的列名
filename。数据文件所在位置(一般在\lib\site-packages\sklearn\datasets\data\目录下)
分数据集和测试集:
from sklearn.model_selection import train_test_split
Xtrain,Xtest,Ytrain,Ytest=train_