K近邻：KNN

最新推荐文章于 2021-09-09 21:23:02 发布

hhjhh76

最新推荐文章于 2021-09-09 21:23:02 发布

阅读量238

点赞数

分类专栏：机器学习文章标签： KNN K近邻

本文链接：https://blog.csdn.net/hhjhh76/article/details/86073938

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

K近邻法假设给定一个训练数据集，其中的实例类别已定，分类时，对新的实例，根据其K个最近邻的数据实例的类别，通过多数表决的方式进行预测。通俗点说，就是物以类聚人以群分，你身边的K个人大多属于什么类型，那么你就属于什么类型。

<1>.K值的选择

K值的选择对近邻法的结果产生较大的影响，选择较小的K值，则只有与实例较近的训练实例才对预测结果起作用，如果临近的实例恰好是噪音，则预测结果就会出错；当k值过大时，与实例较远的训练实例也会对预测起作用，也不太合适，例如K取训练实例的个数，则不管输入什么样的数据，预测结果都为训练实例中实例个数最多的类。在运用中，K值一般取一个较小的数值，通常通过交叉验证来选取最优K值。

下图为一个例子：
在这里插入图片描述
红色星，绿色圆，黄色三角代表不同的3类，要推测出中间黑色框属于3类中的那一类？
当 $k = 3$ 时，和黑色框距离最近的3个点当中有2个红色星,1个绿色圆，因此认为黑色框的类别为红色星；当 $k = 13$ 时，和黑色框最近的13个点中有8个绿色圆，4个红色星，1个黄色三角，因此认为黑色框的类别为绿色圆

<2>.距离度量

衡量点与点之间距离的的度量方式也很重要，常见的距离度量公式有：
闵可夫斯基距离：   $L_{p}(x_{i},x_{j})=(\sum_{l=1}^{n}(x_{i}^{l}-x_{j}^{l})^{p})^{\frac{1}{p}}$
欧式距离：              $L_{2}(x_{i},x_{j})=(\sum_{l=1}^{n}(x_{i}^{l}-x_{j}^{l})^{2})^{\frac{1}{2}}$ ;    $(p = 2)$
曼哈顿距离：          $L_{1}(x_{i},x_{j})=\sum_{l=1}^{n}|(x_{i}^{l}-x_{j}^{l})|$ ;         $(p = 1)$
切比雪夫距离：       $L_{p}(x_{i},x_{j})=\max|(x_{i}^{l}-x_{j}^{l})|$ ;          $(p=\infin)$
$x_{i}$ 表示实例i， $x_{i}^{l}$ 表示实例i第 $l$ 个属性的取值， $n$ 表示属性的个数