knn算法python代码_KNN-python代码实现

最新推荐文章于 2020-12-03 01:11:06 发布

weixin_39867212

最新推荐文章于 2020-12-03 01:11:06 发布

阅读量868

点赞数 1

文章标签： knn算法python代码

KNN属于机器学习中的监督学习，其核心思想即“物以类聚，人以群分”。

监督学习算法的基本流程

1.归一化数据样本集

2.划分样本集为训练集和测试集

3、以训练集为算法参考系，测试集来测试算法

4、计算预测样品标签和真实样品标签的比值来评估算法的准确率

5、调节不同的参数找到最优算法参数

代码实现

1.调用KNN函数来实现分类 （数据采用的是经典的iris数据，是三分类问题）

# 读取相应的库

from

# 读取数据 X, y

iris = datasets.load_iris()
X = iris.data
y = iris.target
print (X, y)

# 把数据分成训练数据和测试数据（默认25为测试数据，75%为训练数据）#random_state=2003为随机数种子，作用参https://www.jianshu.com/p/4deb2cb2502f

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=2003)

# 构建KNN模型， K值（n_neighbors）为3、并做训练（fit）

clf = KNeighborsClassifier(n_neighbors=3)
clf.fit(X_train, y_train)

# 计算准确率

from sklearn.metrics import accuracy_score
correct = np.count_nonzero((clf.predict(X_test)==y_test)==True)
print ("Accuracy is: %.3f" %(correct/len(X_test)))
#accuracy_score(y_test, clf.predict(X_test))

2.从零开始自己写一个KNN算法

# 读取相应的库，并导入数据

from sklearn import datasets
from collections import Counter  # 为了做投票
from sklearn.model_selection import train_test_split
import numpy as np

# 导入iris数据
iris = datasets.load_iris()
X = iris.data
y = iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=2003)

#欧式距离函数与分类函数

def euc_dis(instance1, instance2):
    """
    计算两个样本instance1和instance2之间的欧式距离
    instance1: 第一个样本， array型
    instance2: 第二个样本， array型
    """
    # TODO
    dist = np.sqrt(sum((instance1 - instance2)**2))
    return dist

def knn_classify(X, y, testInstance, k):
    """
    给定一个测试数据testInstance, 通过KNN算法来预测它的标签。 
    X: 训练数据的特征
    y: 训练数据的标签
    testInstance: 测试数据，这里假定一个测试数据 array型
    k: 选择多少个neighbors? 
    """
    # TODO  返回testInstance的预测标签 = {0,1,2}
    distances = [euc_dis(x, testInstance) for x in X]
    kneighbors = np.argsort(distances)[:k]
    count = Counter(y[kneighbors])
    return count.most_common()[0][0]

#预测结果

predictions = [knn_classify(X_train, y_train, data, 3) for data in X_test]
correct = np.count_nonzero((predictions==y_test)==True)
#accuracy_score(y_test, clf.predict(X_test))
print ("Accuracy is: %.3f" %(correct/len(X_test)))

更多代码及数据参考：https://github.com/GreedyAIAcademy/Machine-Learning/tree/master/2.KNN