导入数据
from sklearn.datasets import load_iris
鸢尾花这个数据中只有150个样本,所以对训练数据的维度不做过多处理。
这个案例比较简单,整体代码如下:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
# 读取数据
iris = load_iris()
# 进行数据分割,测试集大小设为0.1
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2)
# 标准化处理
std = StandardScaler()
x_train = std.fit_transform(x_train)
x_test = std.transform(x_test)
# 进行算法流程,
knn = KNeighborsClassifier(n_neighbors=3)
#训练函数,返回的是对象本身
knn.fit(x_train, y_train)
# 测试得出预测结果
y_predict = knn.predict(x_test)
# 得出准确率
print('准确率:', knn.score(x_test, y_test))
k值取多大?有什么影响?
k值取很小:容易受异常点影响
k值取很大:容易受最近数据太多导致比例变化
本案例中样本数量不是很多,我对k值进行了变换,得出的准确率差别不是很大。