【机器学习期末总结】2-K近邻法

最新推荐文章于 2023-01-14 14:39:41 发布

malo12

最新推荐文章于 2023-01-14 14:39:41 发布

阅读量247

点赞数

分类专栏：机器学习文章标签：人工智能 python

版权

9 篇文章 2 订阅

订阅专栏

基本原理：
物以类聚，人以群分
在这里插入图片描述

1、K近邻算法

K近邻(K-Nearest Neighbor, KNN)是一种常用的监督学习方法:

算法详细描述见ppt

特征空间中两个实例点的距离是两个实例点相似程度的反映
图形理解：
在这里插入图片描述
各种距离度量的详细介绍（与上图不是一一对应）

为了避免平票的出现，K应该选择奇数

千万不能用测试数据来调参
数据量越少，可以适当增加折数

在这里插入图片描述

最简单实现
线性扫描（linear scan）：
计算输入实例与每一个训练实例的距离，复杂度O(n)
缺点：当训练集很大时，计算非常耗时
KD树优化
可以使用KD树来提高K近邻搜索的效率
平均计算复杂度是O(logN)
预备知识：二叉搜索树

在这里插入图片描述

在这里插入图片描述

步骤一：找到初始当前最近点
先进行二叉查找，先从（7,2）查找到（5,4）节点，在进行查找时是由y = 4为分割超平面的，由于查找点为y值为4.5，因此进入右子空间查找到（4,7），形成搜索路径：（7,2）→（5,4）→（4,7），取（4,7）为当前最近邻点
步骤二：然后回溯到（5,4），将其作为第二个临近点
步骤三：进入（5,4）结点的另一个子空间进行查找（2，3）
步骤四：接着根据规则回退到根结点(7,2)，与x=7的超平面不相交，因此不用进入（7,2）的右子空间进行查找