机器学习（八）——K近邻学习(K-Nearest Neighbor, KNN)

最新推荐文章于 2022-10-20 19:00:43 发布

快乐星球小怪兽

最新推荐文章于 2022-10-20 19:00:43 发布

阅读量905

点赞数 3

分类专栏：机器学习文章标签： python 机器学习

本文链接：https://blog.csdn.net/kay_xiaohe_he/article/details/115164457

版权

机器学习专栏收录该内容

19 篇文章 11 订阅

订阅专栏

K近邻（KNN）

1 KNN 原理
2 代码实践

1 KNN 原理

K近邻学习是一种常用的监督学习方法，也是“懒惰学习”的代表（因为它没有显式的学习过程）。它的思想很简单：给定测试样本，基于某种距离度量找出训练集中与其最靠近的K个样本，然后基于对这K个“邻居”的投票进行预测。 KNN的建立过程很简单：

给定测试样本，计算它与训练集中每一个样本的距离；
找出距离最近的K个训练样本，作为测试样本的K个“邻居”；
依据这K个近邻归属的类别对测试样本进行投票预测。

例如，我们要决定绿色测试样本的类别归属，如果 $K = 3$ ，它的3个近邻是实线圆内的3个训练样本，其中红色所占比例为 $\frac{2}{3}$ ，因此绿色被判别为红色的一类；如果 $K = 5$ ，它的5个近邻为虚线圆内的训练样本，其中蓝色占比为 $\frac{3}{5}$ ，因此绿色被判别为蓝色的一类。
在这里插入图片描述
那么KNN中需要我们重点关注的两点就是：K值的选择和距离度量的计算。

1.1 模型优化

1.1.1 K值的选择

K值是该算法模型的一个超参数，一般情况下这个K和数据有很大的关系，都是用交叉验证进行选择的，但是建议 $k\in[2,20]$ 。k值还可以表示模型的复杂度，k值越小意味着模型复杂度越大，更容易过拟合，(用极少数的样例来决定这个预测的结果，很容易产生偏见)。k值越大学习的估计误差越小，但是学习的近似误差就会增大。

1.1.2 距离/相似度度量

我们一般使用 $L_p$ 距离进行度量，假设两个向量 $x_i,x_j)$ 来自n维实向量空间 $R^n$ ，其中 $x_i=(x_i^{(1)},x_i^{(2)},\dots,x_i^{(n)}), x_j=(x_j^{(1)},x_j^{(2)},\dots,x_j^{(n)})$ ，则 $x_i, x_j$ 的 $L_p$ 距离定义为：
$L_{p}\left(x_{i}, x_{j}\right)=\left(\sum_{l=1}^{n}\left|x_{i}^{(l)}-x_{j}^{(l)}\right|^{p}\right)^{\frac{1}{p}}$

当 $p = 1$ 时，称为曼哈顿距离:
$L_{1}\left(x_{i}, x_{j}\right)=\sum_{l=1}^{n}\left|x_{i}^{(l)}-x_{j}^{(l)}\right|$
当 $p = 2$ 时，称为欧氏距离：
$L_{2}\left(x_{i}, x_{j}\right)=\left(\sum_{l=1}^{n}\left|x_{i}^{(l)}-x_{j}^{(l)}\right|^{2}\right)^{\frac{1}{2}}$
当 $p=\infty$ 时，称为极大距离
$L_{p}\left(x_{i}, x_{j}\right)=\max _{l} n\left|x_{i}^{(l)}-x_{j}^{(l)}\right|$

1.1.3 投票策略

投票决定，少数服从多数。取类别最多的为测试样本类别。
加权投票法，依据计算得出距离的远近，对近邻的投票进行加权，距离越近则权重越大，设定权重为距离平方的倒数。

1.2 KNN的应用

KNN虽然简单，但是既可以用来做分类，又可以用来做回归，还可以用来做缺失值填充。

在分类任务中常使用“投票法”。
在回归任务中可使用“平均法”，将这个K个近邻的实值输出标记的平均值作为预测结果。还可以使用加权平均。

1.3 泛化性能

假设测试样本维 $x$ ，其最近邻样本维 $z$ ，并且在 $x$ 的任意小范围 $\delta$ 总能找到一个训练样本 $z$ ，同时令 $c^*=arg\;max_{c∈y}P(c|x)$ 为贝叶斯分类器的最优结果。那么最近了分类器出错的概率就是 $x$ 与 $z$ 的类别标记不同的概率：
$P(err)=1-\sum_{c \in y}P(c|x)P(c|z)\\ \;\;\;\;\simeq 1-\sum_{c\in y}P^2(c|x)\\\leq1-P^2(c^*|x)\\ \qquad\qquad\qquad\quad=(1+P^2(c^*|x))(1-P^2(c^*|x))\\ \;\qquad\leq2\times\left(1-P^2(c^*|x)\right)$
由此可见最近邻分类器虽然简单，但是其泛化错误率不超过贝叶斯最优分类器错误率的两倍。

2 代码实践

2.1 回归任务

导入所需库和数据集，此处使用sklearn数据集中的波士顿房价数据集，并使用head()函数查看数据集。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline 
plt.style.use("ggplot")      
import seaborn as sns
from sklearn import datasets

boston = datasets.load_boston()  # 返回一个类似于字典的类
X = boston.data                                # 获得特征矩阵
y = boston.target                              # 获得标签
features = boston.feature_names    # 获得特征的名称
boston_data = pd.DataFrame(X,columns=features)
boston_data["Price"] = y

boston_data.head()

在这里插入图片描述
接下来是模型训练和预测可视化
首先我们使用LSTAT列的数据作为要训练的数据，查看它的统计信息

# 统计分析
boston_data["LSTAT"].describe()

count 506.000000
mean 12.653063
std 7.141062
min 1.730000
25% 6.950000
50% 11.360000
75% 16.955000
max 37.970000
Name: LSTAT, dtype: float64
以LSTAT列的数据作为训练集，然后根据该列的数据统计信息，构建测试数据，plot拟合曲线

train = np.reshape(boston_data["LSTAT"].values,(len(boston_data["LSTAT"]),1))
test = np.linspace(0, 38, 506)[:, np.newaxis]

然后分别取 $K = 1, 3, 5, 8, 10, 40, 100, 250, 506$ 查看回归效果，KNeighborsRegressor函数官网介绍

from sklearn.neighbors import KNeighborsRegressor
# Fit regression model
# 设置多个k近邻进行比较
n_neighbors = [1, 3, 5, 8, 10, 40,100,250,506]
# 设置图片大小
plt.figure(figsize=(20,10))
for i, k in enumerate(n_neighbors):
    # 默认使用加权平均进行计算predictor
    clf = KNeighborsRegressor(n_neighbors=k, p=2, metric="minkowski")
    # 训练
    clf.fit(T, y)
    # 预测
    y_ = clf.predict(test)
    plt.subplot(3, 3, i + 1)
    plt.scatter(T, y, color='red', label='data')
    plt.plot(test, y_, color='navy', label='prediction')
    plt.axis('tight')
    plt.legend()
    plt.title("KNeighborsRegressor (k = %i)" % (k))

plt.tight_layout()
plt.show()

在这里插入图片描述

当 $K = 1$ 时，预测结果只与一个样本有关系，从预测曲线中可以看出当k很小时候很容易发生过拟合。
当 $K = 506$ 时，预测的结果和最近的506个样本相关，因为我们只有506个样本，此时是所有样本的平均值，此时所有预测值都是均值，很容易发生欠拟合。
同时也可以看到随着K的增大，拟合曲线越光滑。
一般情况下，使用knn的时候，根据数据规模我们会从[3, 20]之间进行尝试，选择最好的k。

2.2 分类任务

分类任务我们使用熟悉的鸢尾花数据集

# 使用莺尾花数据集的前两维数据，便于数据可视化
iris = datasets.load_iris()
X = iris.data[:, :2]
y = iris.target

并且对 $K = 1, 3, 5, 8, 10, 15$ 进行测试，查看其分类结果

k_list = [1, 3, 5, 8, 10, 15]
h = .02
# 创建不同颜色的画布
cmap_light = ListedColormap(['orange', 'cyan', 'cornflowerblue'])
cmap_bold = ListedColormap(['darkorange', 'c', 'darkblue'])

plt.figure(figsize=(15,14))
# 根据不同的k值进行可视化
for ind,k in enumerate(k_list):
    clf = KNeighborsClassifier(k)
    clf.fit(X, y)
    # 画出决策边界
    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                         np.arange(y_min, y_max, h))
    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
    # 根据边界填充颜色
    Z = Z.reshape(xx.shape)

    plt.subplot(321+ind)  
    plt.pcolormesh(xx, yy, Z, cmap=cmap_light)
    # 数据点可视化到画布
    plt.scatter(X[:, 0], X[:, 1], c=y, cmap=cmap_bold,
                edgecolor='k', s=20)
    plt.xlim(xx.min(), xx.max())
    plt.ylim(yy.min(), yy.max())
    plt.title("3-Class classification (k = %i)"% k)

plt.show()

分类结果如下，不同的颜色代表不同的类别
在这里插入图片描述
当 $K$ 较小时，模型分界位置容易受到局部数据的影响，对局部数据敏感。例如 $K = 1$ 时，浅蓝块中嵌入了很多小块的深蓝。而当 $K$ 较大时，模型相对来说较鲁棒，预测结果会落入对应的区域中，对局部数据不那么敏感。

2.3 缺失值填充

如果数据集中有空值，空值是不能参与计算的，我们需要进行数据预处理对空值进行填充，此时我们可以使用KNNImputer进行空值填充。下面我们来看其填充原理：
首先我们构建一个有缺失值的数据

X = [[1, 2, np.nan], [3, 4, 3], [np.nan, 6, 5], [8, 8, 7]]

对其进行空值填充时且设定 $K = 2$ ，对于第一个有空值的样本 $[1, 2, n p . n a n]$ ，它的第三维有空值，而与它最近的两个样本是 $[3, 4, 3]$ 和 $[n p . n a n, 6, 5]$ ，它们的第三维的值分别为3和5，用这两个的均值作为填充值，因此填充后为 $[1, 2, 4]$ 。对于有空值的第二个样本 $[n p . n a n, 6, 5]$ ，与其距离最近的两个样本是 $[3, 4, 3]$ 和 $[8, 8, 7]$ ，第一维缺失值的空值用同样方法填充为 $[5.5, 6, 5]$ 。
我们来看代码实现：

# kNN数据空值填充
from sklearn.impute import KNNImputer
imputer = KNNImputer(n_neighbors=2, metric='nan_euclidean')
imputer.fit_transform(X)

array([[1. , 2. , 4. ],
[3. , 4. , 3. ],
[5.5, 6. , 5. ],
[8. , 8. , 7. ]])

有空值的欧式距离又是如何计算的呢？

对于正常样本 $[3, 4, 3]$ 和 $[8, 8, 7]$ ，计算其欧式距离为： $\sqrt{(3-8)^2+(4-8)^2+(3-7)^2}=\sqrt{33}=7.55$ 因此这两个样本的欧氏距离为7.55。
对于有缺失值的样本 $[1, 2, n p . n a n]$ 和 $[n p . n a n, 6, 5]$ ，计算欧式距离只计算没有缺失值的维度的值，并按比例增加其余坐标的权重： $\sqrt{\frac{3}{1} \times (2-6)^2}=\sqrt{48}=6.93$ 因此这两个样本的欧氏距离为6.93。

用代码计算计算 $X$ 和 $Y$ 中每对样本之间的欧式距离，如果 $Y = N o n e$ 则令 $Y = X$ ，在计算一对样本之间的距离时，此公式将忽略两个样本中任一值均缺失的要素坐标，并按比例增加其余坐标的权重：

from sklearn.metrics.pairwise import nan_euclidean_distances
X = [[np.nan, 6, 5], [3, 4, 3]]
Y = [[3, 4, 3], [1, 2, np.nan], [8, 8, 7]]
nan_euclidean_distances(X, Y)

array([[3.46410162, 6.92820323, 3.46410162],
[0. , 3.46410162, 7.54983444]])

快乐星球小怪兽

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
机器学习（八）——K近邻学习(K-Nearest Neighbor, KNN)

K近邻（KNN）1 KNN 原理1.1 模型优化1.1.1 K值的选择1.1.2 距离/相似度度量1.1.3 投票策略1.2 KNN的应用1.3 泛化性能2 代码实践2.1 回归任务2.2 分类任务2.3 缺失值填充1 KNN 原理K近邻学习是一种常用的监督学习方法，也是“懒惰学习”的代表（因为它没有显式的学习过程）。它的思想很简单：给定测试样本，基于某种距离度量找出训练集中与其最靠近的K个样本，然后基于对这K个“邻居”的投票进行预测。 KNN的建立过程很简单：给定测试样本，计算它与训练集中每一个样
复制链接

扫一扫