【数据挖掘】K-NN 分类 ( 简介 | 分类概念 | K-NN 分类实例 | K-NN 分类准确度评估 | K-NN 分类结果评价指标 | 准确率

本文链接：https://blog.csdn.net/shulianghan/article/details/105853237

文章目录

I . K-NN 简介

K-NN 简介 :

① 全称 : K-NN 全称是 K-Nearest Neighbors , 即 K 最近邻 算法 ;

② 定义 : 给定查询点 $p$ , 找出离 $p$ 最近的 $K$ 个点 , 找出所有的 $q_k$ 点 , $q_k$ 点的要求是点到 $p$ 的距离小于其第 $k$ 个邻居的距离 ;

③ 理解方式 : 以 $p$ 点为圆心画圆 , 数一下圆内 , 和圆的边上的点是由有 $K$ 个 , 如果个数不足 $K$ 个 , 扩大半径 , 直到圆边上和园内的点的个数大于等于 $K$ 为止 ;

④ 图示 : 红色的点是 $p$ 点 , 绿色的点是 $p$ 点的 $9$ 个最近的邻居 , 圆上的绿点是第 $9$ 个最近的邻居 ;

在这里插入图片描述

II . K-NN 分类

K-NN 分类 :

① 已知条件 : 假设给定查询点 $p$ , 已经直到其 $K$ 个最近邻居 ;

② 分类内容 : K-NN 的目的是为了给查询点 $p$ 进行分类 ;

③ 数据集样本抽象成点 : 将训练集的数据样本 , 当做 $n$ 维空间中的的点 ;

④ 预测分类 : 给定一个未知样本 $p$ , 要给该位置样本分类 , 首先以该未知样本作为查询点 , 以 $p$ 点为中心 , 找到该样本的点在 $n$ 维空间中的 $K$ 个近邻 , 将这 $K$ 个近邻按照某个属性的值进行分组 , 该未知样本 $p$ 被分到样本最多的那个组 ;

III . K-NN 分类实例

为下面的红色点进行分类 : 有两种分类 , 绿色点的分类是 $A$ , 和紫色点的分类是 $B$ , 为红点进行分类 ;

在这里插入图片描述

1-NN 分类 : 此时 $A$ 类别有 $1$ 个 , $B$ 类别有 $0$ 个 , 红色点被分为 $A$ 类别 ;

在这里插入图片描述

3-NN 分类 : 此时 $A$ 类别有 $1$ 个 , $B$ 类别有 $2$ 个 , 红色点被分为 $B$ 类别 ;

在这里插入图片描述

9-NN 分类 : 此时 $A$ 类别有 $5$ 个 , $B$ 类别有 $2$ 个 , 红色点被分为 $A$ 类别 ;

在这里插入图片描述

15-NN 分类 : 此时 $A$ 类别有 $5$ 个 , $B$ 类别有 $9$ 个 , 红色点被分为 $B$ 类别 ;

在这里插入图片描述

K-NN 分类准确度 : 数据量越大 , 准确度越高 ; K-NN 的思想是与周围的大多数样本保持一致 ;

在这里插入图片描述

IV . K-NN 分类准确性评估方法

K-NN 分类准确性评估方法 : 保持法 , $k$ -交叉确认法 , 这两种方法是常用的 K-NN 评估分类准确率的方法 ;

V . 保持法

1 . 保持法 :

① 训练集测试集划分 : 将数据集样本随机分成两个独立的数据集 , 分别是用于训练学习的训练集 , 和用于验证测试的测试集 ;

② 训练集测试集样本比例 : 数据集划分比例 , 通常是 , 训练集 $\dfrac{2}{3}$ , 测试集 $\dfrac{1}{3}$ ;

③ 随机划分 : 划分一定要保证随机性 , 划分时不能有任何偏好 ;

2 . 随机选样法 : 执行 $K$ 次保持法 , 得到 $K$ 个准确率 , 总体的准确率取这 $K$ 次准确率的平均值 ;

3 . 随机选样法本质 : 保持法的另一种形式 , 相当于使用多次保持法 ;

VI . $k$ -交叉确认法

1 . $k$ -交叉确认法 : 首先要划分数据集 , 然后进行 $k$ 次训练测试 , 最后计算出准确率 ;

2 . 划分数据集 : 将数据集样本划分成 $k$ 个独立的子集 , 分别是 $\{ S_1 , S_2 , \cdots , S_k \}$ , 每个子集的样本个数尽量相同 ;

3 . 训练测试 :

① 训练测试次数 : 训练 $k$ 次 , 测试 $k$ 次 , 每次训练都要对应一次测试 ;

② 训练测试过程 : 第 $i$ 次训练 , 使用 $S_i$ 作为测试集 , 其余 $(k - 1)$ 个子集作为训练集 ;

4 . 训练测试示例 : 训练 $k$ 次 ;

第 $1$ 次训练 , 使用 $S_1$ 作为测试集 , 其余 $(k - 1)$ 个子集作为训练集 ;
第 $2$ 次训练 , 使用 $S_2$ 作为测试集 , 其余 $(k - 1)$ 个子集作为训练集 ;
$\vdots$
第 $k$ 次训练 , 使用 $S_k$ 作为测试集 , 其余 $(k - 1)$ 个子集作为训练集 ;

5 . 准确率结果 :

① 单次训练测试结果 : $k$ 次测试训练 , 每次使用 $S_i$ 作为测试集 , 测试的子集中有分类正确的 , 有分类错误的 ;

② 总体准确率 : $k$ 次测试后 , 相当于将整个数据集的子集 $\{ S_1 , S_2 , \cdots , S_k \}$ 都当做测试集测试了一遍 , 将整体的数据集的样本分类正确的样本个数 $Y$ , 除以整体的样本个数 $T$ , 即可得到 $k$ -交叉确认准确率结果 $\dfrac{Y}{T}$ ;