数据挖掘-K-近邻分类器-Iris数据集分析-使用K-近邻分类器进行分类预测(四)

最新推荐文章于 2024-02-19 11:22:31 发布

zhangyingchengqi

最新推荐文章于 2024-02-19 11:22:31 发布

阅读量2.7k

点赞数 1

分类专栏：大数据数据挖掘文章标签： K-近邻分类器 Iris数据集大数据预测数据挖掘

本文链接：https://blog.csdn.net/zhangyingchengqi/article/details/54783457

版权

大数据同时被 2 个专栏收录

36 篇文章 1 订阅

订阅专栏

数据挖掘

13 篇文章 0 订阅

订阅专栏

# coding: utf-8
#使用 scikit-learn库的K-近邻分类器完成分类
#1. 首先将数据集中的数据进行打乱
#2. 将数据分为训练集和测试集两部分
#3. 使用 k-means分类器进行分类训练，得到预测模型
#4. 使用模型对测试集进行测试，并与真实结果进行比较，计算错误率
import numpy as np
from sklearn import datasets
np.random.seed(0)
iris=datasets.load_iris()
x=iris.data
y=iris.target
#打乱数据集中的所有数据
# permutation函数: 随机排列   https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.permutation.html
i=np.random.permutation(len(iris.data))
#训练集： 取出打乱后的前140条数据
x_train=x[i[:-40]]   #前110条数据
y_train=y[i[:-40]]   #前110条数据对应的花的类型

#输出x_train, y_train
#x_train
#y_train

#测试集
x_test=x[i[-40:]]   #最后40条数据
y_test=y[i[-40:]]   #最后40条数据对应的花的类型

#使用k-近邻算法   引入kneighborsClassifier分类器,再使用fit()来训练
from sklearn.neighbors import KNeighborsClassifier
# KneighborsClassifier参数详解: http://blog.csdn.net/helloworld6746/article/details/50817427
# http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html
knn=KNeighborsClassifier()   #使用构造函数创建分类器
knn.fit(x_train,y_train)     #调用fit方法训练分类器，得到预测模型

#下面使用这个模型进行预测
y_predicted=knn.predict( x_test )
#对比标准结果
y_test  

#计算正确率
accuracy=np.mean( y_predicted==y_test)*100
print(u"模型正确率为:{:.1f}%".format( accuracy))    # 95%