机器学习-KNN(K近邻算法)

最新推荐文章于 2022-10-03 14:08:34 发布

苟冬新

最新推荐文章于 2022-10-03 14:08:34 发布

阅读量580

点赞数 1

分类专栏：机器学习文章标签： KNN 距离度量公式决策规则 KD树

本文链接：https://blog.csdn.net/weixin_40187450/article/details/90737868

版权

机器学习专栏收录该内容

12 篇文章 5 订阅

订阅专栏

K近邻算法（K-Nearest Neighbor）是一种很基本的机器学习方法，能做分类和回归任务（寻找最近的K个邻居（欧式距离））

KNN的三个基本要素：距离度量、k值的选择和决策规则

距离度量
• 在引例中所画的坐标系，可以叫做特征空间。特征空间中两个实例点的距离是两个实例点相似程度的反应（距离越近，相似度越高）。kNN模型使用的距离一般是欧氏距离，但也可以是其他距离如：曼哈顿距离
k值的选择
• k值的选择会对kNN模型的结果产生重大影响。选择较大的k值，相当于用较大邻域中的训练实例进行预测，模型会考虑过多的邻近点实例点，甚至会考虑到大量已经对预测结果没有影响的实例点，会让预测出错；选择较小的k值，相当于用较小邻域中的训练实例进行预测，会使模型变得敏感（如果邻近的实例点恰巧是噪声，预测就会出错）。
• 在应用中，k值一般取一个比较小的数值。通常采用一些验证方法来选取最优的k值。
决策规则
• 分类：往往是多数表决，即由输入实例的k个邻近的训练实例中的多数类决定待测实例的类。或带权投票
• 回归：取平均值。或带权取平均值

K值的选择

k是一个超参数，需要使用验证集来调参
k过小：容易受到噪声点影响
k过大：会考虑到一些对预测没有价值的数据点

带权平均数（广义线性平均值）

训练KNN模型需要做特征标准化

sklearn对KNN的实现方法

蛮力法(brute-force)
• k近邻法最简单的实现方式是线性扫描，需要计算待测实例与每个实例的距离，在大数据上不可行。
KD树(KDTree)
• 为了提高k近邻搜索效率，考虑使用特殊的结构存储训练数据，以减少计算距离的次数，可以使用kd树（kd tree）方法。kd树分为两个过程——构造kd树（使用特殊结构存储训练集）、搜索kd树（减少搜索计算量）
球树(BallTree)

构造kd树

• 给定一个二维空间的数据集（含有标记的一般叫训练集，不含标记的一般叫数据集）：，请画出：特征空间的划分过程、kd树的构造过程。
• 第一步：选择x(1)轴，6个数据点的x(1)坐标上的数字分别是2,5,9,4,8,7。取中位数7（不是严格意义的中位数，取较大的数），以x(1)=7将特征空间分为两个矩形：
在这里插入图片描述