统计学习（李航）——K邻近法（Python）

本文链接：https://blog.csdn.net/Lancy_cai/article/details/103522507

k近邻算法

在这里插入图片描述
k邻近法的三要素：距离度量、k值的选择和分类决策规则。
距离度量：
距离定义为
$L_{p}\left(x_{i}, x_{j}\right)=\left(\sum_{l=1}^{n}\left|x_{i}^{(l)}-x_{j}^{(l)}\right|^{p}\right)^{\frac{l}{p}}$
p=1时：曼哈顿距离，两个向量的各个分量（坐标）的距离的和。
p=2时：欧式距离
p为无穷时：它是两个向量的各个分量（坐标）的距离的最大值。
k值的选择：
k值小，k近邻模型更复杂；k值大，k近邻模型更简单。通常由交叉验证选择最优的k值。
分类决策规则：在最近的k个邻近点中，属于哪一类的点最多，就将预测为该类。
如果涵盖 $N_{k}(x)$ 的区域的类别是 $c_{j}$ ，那么误分类率是
$\frac{1}{k} \sum_{x_{i}, N_{k}(x)} I\left(y_{i} \neq c_{j}\right)=1-\frac{1}{k} \sum_{x_{i} N_{k}(x)} I\left(y_{i}=c_{j}\right)$
kd树：
kd树是一种存储数据的方法，对于每一个要预测的实例，都需要寻找和其特征向量距离最近的那些训练集中的实例，但是当特征向量维度很高时，这种搜索很耗时，这就需要一种特殊的数据结构，如kd树，不需要遍历训练集中的每一个实例。
代码：
在这里插入图片描述