机器学习入门（二）：KNN分类算法和决策边界(Decision Boundary)绘制

FrenchOldDriver

已于 2022-10-14 16:15:29 修改

阅读量1w

点赞数 9

分类专栏：统计学/数据处理/机器学习文章标签：算法 python 机器学习数据挖掘数据分析

于 2020-03-27 17:18:06 首次发布

本文链接：https://blog.csdn.net/OldDriver1995/article/details/105145051

版权

统计学/数据处理/机器学习专栏收录该内容

34 篇文章 60 订阅

订阅专栏

机器学习入门专栏其他章节：

1）KNN算法基础知识：

KNN全称K Nearest Neighbor, k是指最近邻居的个数。
俗话说物以类聚，人以群分，我们通常判别一个人是好是坏的方式就是看他周围是一群好人还是坏人。
这个算法也是如此，假如A的周围有一堆好人，我们就认为他是个好人。即使他周围有两个坏人（干扰项），我们也不会把它当成坏人。
而人与人的关系也有远近之分，计算远近，我们就需要用距离来衡量，有时候远亲不如近邻就体现了距离的重要性。
首先看这样一个例子：
现在有一个点，坐标分别是a1=2，a2=4，a3=3，请问它是yes还是no。
在这里插入图片描述
很简单，我们就用三维坐标距离公式计算：

可以很直观地发现，他离第二个点是最近的，如果k值取1，那他就直接划为yes，如果k取3，即用最近的三个邻居来衡量，发现点1，2，3都很近，2 yes 1 no，所以最后还是划成yes。
注意，虽然这里K取不同值结果不一样，但k确实会影响分类结果。
这种计算距离的方式就叫欧式距离(Euclidean Distance)，当然还有其他计算方式，比如曼哈顿距离（Manhattan Distance)，公式如下：
在这里插入图片描述

2）代码实现：

这里将用到sklearn包里面的iris数据，iris包含了三种花的各项物理参数，三种花分别叫setosa，versicolor，virginica。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
#导入iris数据
from sklearn.datasets import load_iris
iris = load_iris()
X=iris.data
y=iris.target
X=X[:,:2] #只取前两列

X_train, X_test, y_train, y_test = train_test_split(
X, y, stratify=y, random_state=42) #划分数据，random_state固定划分方式
#导入模型
from sklearn.neighbors import KNeighborsClassifier 
#训练模型
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)
y_pred = knn.predict(X_test)
#查看各项得分
print("y_pred",y_pred)
print("y_test",y_test)
print("score on train set", knn.score(X_train, y_train))
print("score on test set", knn.score(X_test, y_test))
print("accuracy score", accuracy_score(y_test, y_pred))

结果如下:
在这里插入图片描述

3)绘制决策边界：

这里将利用等高线图来画：

def plot_decision_boundary(clf , axes):
    xp=np.linspace(axes[0], axes[1], 300) #均匀300个横坐标
    yp=np.linspace(axes[2], axes[3], 300) #均匀300个纵坐标
    x1, y1=np.meshgrid(xp, yp) #生成300x300个点
    xy=np.c_[x1.ravel(), y1.ravel()] #按行拼接，规范成坐标点的格式
    y_pred = clf.predict(xy).reshape(x1.shape) #训练之后平铺
    custom_cmap = ListedColormap(['#fafab0','#9898ff','#a0faa0'])
    plt.contourf(x1, y1, y_pred, alpha=0.3, cmap=custom_cmap)
        
plot_decision_boundary(knn, axes=[4, 8, 1.5, 5])
#画三种类型的点
p1=plt.scatter(X[y==0,0], X[y==0, 1], color='blue')
p2=plt.scatter(X[y==1,0], X[y==1, 1], color='green')
p3=plt.scatter(X[y==2,0], X[y==2, 1], color='red')
#设置注释
plt.legend([p1, p2, p3], iris['target_names'], loc='upper right')
plt.show()

绘制结果如图，方便深入理解knn算法：
在这里插入图片描述
可以发现有两种花由于混在一起，所以决策边界有点不不太容易划分。

FrenchOldDriver

关注

9
点赞
踩
49

收藏

觉得还不错? 一键收藏
0
评论
机器学习入门（二）：KNN分类算法和决策边界(Decision Boundary)绘制

1）KNN算法基础知识：KNN全称K Nearest Neighbor, k是指最近邻居的个数。俗话说物以类聚，人以群分，我们通常判别一个人是好是坏的方式就是看他周围是一群好人还是坏人。这个算法也是如此，假如A的周围有一堆好人，我们就认为他是个好人。即使他周围有两个坏人（干扰项），我们也不会把它当成坏人。而人与人的关系也有远近之分，计算远近，我们就需要用距离来衡量，有时候远亲不如近邻就体现...
复制链接

扫一扫