KNN详解

最新推荐文章于 2024-05-13 18:31:59 发布

lzk_nus

最新推荐文章于 2024-05-13 18:31:59 发布

阅读量621

点赞数

分类专栏： Machine Learning 文章标签：机器学习分类算法

本文链接：https://blog.csdn.net/qq_42791848/article/details/122328420

版权

Machine Learning 专栏收录该内容

22 篇文章 13 订阅

订阅专栏

Kth Nearest Neighbor

K临近算法是我个人认为的最简单直接的一种有监督的分类算法。KNN算法的思想其实非常的intuitive，俗话说的好：“近朱者赤近墨者黑”， KNN就将这句古语利用的淋漓尽致。下面我们详细展开

Model Detail

KNN算法的流程为：给定一个待预测的样本 $x$ ，在数据集中找到距离样本 $x$ 最近的 $k$ 个样本，然后利用这 $k$ 个样本进行预测。如果是分类问题，就采用“Voting”的方式，少数服从多数，以数量最多的标签作为分类结果；如果是回归问题，就取 $k$ 个样本的均值作为结果。

在这里插入图片描述

如上图所示，加入 $k = 20$ ，我们要预测灰色点的类别，那么红色圆圈内部的就是我们的分类依据，最终得到的结果应该是蓝色。

KNN算法有一个显著的特点，就是当你不做预测任务的时候，模型不会对数据集做任何操作，也就是没有明显的训练过程，我们将这种算法叫做“Lazy Learning”。

Distance Measuring

根据上面的算法描述，我们注意到其中很重要的一点就是这个“距离”的计算。一般我们最常用的是欧氏距离，也可以使用最一般的 $L_p$ 距离，也叫做 $\ \ \ Distance$ 。

设 $n$ 维实向量空间 $R^n$ ， $x_i,x_j\in{R^n}$ ， $x_i=(x_{i}^{(1)}, x_{i}^{(2)},\dots,x_{i}^{(n)})$ ， $x_j=(x_{j}^{(1)},x_{j}^{(2)},\dots,x_{j}^{(n)})$ ，那么 $L_p$ 距离定义为：
$L_P(x_i, x_j) = (\sum_{k=1}^n|x_i^{(k)} - x_j^{(k)}|^p)^{\frac{1}{p}}$
特别的，当 $p = 1$ 时，就是曼哈顿距离；当 $p = 2$ 时，就是欧氏距离。

The Choice of K

KNN中另一个关键点就是超参数 $K$ 的选择，如果 $K$ 设置的太小，则会使得模型过于复杂，容易导致模型的过拟合(类比多项式回归， $K$ 太小就相当于多项式回归中特征项太多，或者说限制条件太强，泛化能力差)；如果 $K$ 设置的太大，容易影响模型的准确性，泛化误差会变大。因此超参数 $K$ 的选择非常的重要，对最终的结果会产生很大的影响。
K$的选择非常的重要，对最终的结果会产生很大的影响。

lzk_nus

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
KNN详解

Kth Nearest NeighborK临近算法是我个人认为的最简单直接的一种有监督的分类算法。KNN算法的思想其实非常的intuitive，俗话说的好：“近朱者赤近墨者黑”， KNN就将这句古语利用的淋漓尽致。下面我们详细展开Model DetailKNN算法的流程为：给定一个待预测的样本xxx，在数据集中找到距离样本xxx最近的kkk个样本，然后利用这kkk个样本进行预测。如果是分类问题，就采用“Voting”的方式，少数服从多数，以数量最多的标签作为分类结果；如果是回归问题，就取kkk个样本的
复制链接

扫一扫

专栏目录