title: ‘机器学习| K-近邻算法详解 (Python 语言描述)’
tags:
- machine learning
- k-nearest neighbors
- python
category: - 机器学习
- K-近邻算法
最近邻算法
介绍 K-近邻算法之前,首先说一说最近邻算法。最近邻算法(Nearest Neighbor,简称:NN),其针对未知类别数据 `x`,在训练集中找到与 `x` 最相似的训练样本 `y`,用 `y` 的样本对应的类别作为未知类别数据 `x` 的类别,从而达到分类的效果。
如上图所示,通过计算数据 `X_{u}`(未知样本)和已知类别 `{\omega_{1},\omega_{2},\omega_{3}}`(已知样本)之间的距离,判断 `X_{u}` 与不同训练集的相似度,最终判断 `X_{u}` 的类别。显然,这里将绿色未知样本类别判定与红色已知样本类别相同较为合适。
K-近邻算法
K-近邻(K-Nearest Neighbors,简称:KNN)算法是最近邻(NN)算法的一个推广,也是机器学习分类算法中最简单的方法之一。KNN 算法的核心思想和最近邻算法思想相似,都是通过寻找和未知样本相似的类别进行分类。但 NN 算法中只依赖 1 个样本进行决策,在分类时过于绝对,会造成分类效果差的情况,为解决 NN 算法的缺陷,KNN 算法采用 K 个相邻样本的方式共同决策未知样本的类别,这样在决策中容错率相对于 NN 算法就要高很多,分类效果也会更好。
如上图所示,对于未知测试样本(图中 ?所示)采用 KNN 算法进行分类,首先计算未知样本和训练样本之间的相似度,找出最近 K 个相邻样本(在图中 K 值为 3,圈定距离 ?最近的 3 个样本),再根据最近的 K 个样本最终判断未知样本的类别。
K-近邻算法实现
KNN 算法在理论上已经非常成熟,其简单、易于理解的思想以及良好的分类准确度使得 KNN 算法应用非常广泛。算法的具体流程主要是以下的 4 个步骤:
- 数据准备:通过数据清洗,数据处理,将每条数据整理成向量。
- 计算距离:计算测试数据与训练数据之间的距离。
- 寻找邻居:找到与测试数据距离最近的 K 个训练数据样本。
- 决策分类:根据决策规则,从 K 个邻居得到测试数据的类别。
数据生成
下面,我们尝试完成一个 KNN 分类流程。首先,生成一组示例数据,共包含 2 个类别(A
和B
),其中每一条数据包含两个特征(x
和y
)。
"""生成示例数据
"""
import numpy as np
def create_data():
features = np.array(
[[2.88, 3.05], [3.1, 2.45], [3.05, 2.8], [2.9, 2.7], [2.75, 3.4],
[3.23, 2.9], [3.2, 3.75], [3.5, 2.9], [3.65, 3.6], [3.35, 3.3]])
labels = ['A', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B']
return features, labels
然后,我们尝试加载并打印这些数据。
"""打印示例数据
"""
features, labels = create_data()
print('features: \n', features)
print('labels: \n', labels)
features:
[[2.88 3.05]
[3.1 2.45]
[3.05 2.8 ]
[2.9 2.7 ]
[2.75 3.4 ]
[3.23 2.9 ]
[3.2 2.75]
[3.5 2.9 ]
[3.65 3.6 ]
[3.35 3.3 ]]
labels:
['A', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B']
为了更直观地理解数据,接下来用 Matplotlib 下的 pyplot 包来对数据集进行可视化。为了代码的简洁,我们使用了 map
函数和 lamda
表达式对数据进行处理。
"""示例数据绘图
"""
from matplotlib import pyplot as plt
%matplotlib inline
plt.figure(figsize=(</