统计学习方法----K近邻Python实现

最新推荐文章于 2022-07-31 23:26:18 发布

心，始终在路上

最新推荐文章于 2022-07-31 23:26:18 发布

阅读量495

点赞数 1

文章标签：统计学习方法 Python

本文链接：https://blog.csdn.net/weixin_38862073/article/details/102915406

版权

本文介绍了K近邻（K-Nearest Neighbors, KNN）的统计学习方法，包括KNN的基本原理、距离度量、k值选择和分类决策规则。通过实例分析，展示了使用鸢尾花数据集进行KNN分类的过程，并探讨了kd树在快速搜索k最近邻点中的作用。此外，还使用scikit-learn库展示了KNeighborsClassifier的用法。" 117050251,11042620,微服务间通信：API接口设计与模式,"['微服务', 'API设计', '网络通信']

摘要由CSDN通过智能技术生成

K近邻

1． $k$ 近邻法是基本且简单的分类与回归方法，在统计学习方法书中只讨论分类问题。其输入为实例的特征向量，对应特征空间的点；输出为实例的类别。
$k$ 近邻法的基本做法是：对给定的训练实例点和输入实例点，首先确定输入实例点的 $k$ 个最近邻训练实例点，然后利用这 $k$ 个训练实例点的类的多数来预测输入实例点的类。算法简单、直观。

2． $k$ 近邻模型对应于基于训练数据集对特征空间的一个划分。
$k$ 近邻法中，当训练集、距离度量、 $k$ 值及分类决策规则确定后，其结果唯一确定。

3． $k$ 近邻法三要素：距离度量、 $k$ 值的选择和分类决策规则。
常用的距离度量是欧氏距离及更一般的pL距离。 $k$ 值小时， $k$ 近邻模型更复杂； $k$ 值大时， $k$ 近邻模型更简单。 $k$ 值的选择反映了对近似误差与估计误差之间的权衡，通常由交叉验证选择最优的 $k$ 。

常用的分类决策规则是多数表决，等价于经验风险最小化。

4． $k$ 近邻法的实现需要考虑如何快速搜索k个最近邻点。
kd树是一种便于对k维空间中的数据进行快速检索的数据结构。kd树是二叉树，表示对 $k$ 维空间的一个划分，其每个结点对应于 $k$ 维空间划分中的一个超矩形区域。利用kd树可以省去对大部分数据点的搜索，从而减少搜索的计算量。

距离度量
设特征空间 $x$ 是 $n$ 维实数向量空间， $x_{i}, x_{j} \in \mathcal{X}$ , $x_{i}=\left(x_{i}^{(1)}, x_{i}^{(2)}, \cdots, x_{i}^{(n)}\right)^{\mathrm{T}}$ , $x_{j}=\left(x_{j}^{(1)}, x_{j}^{(2)}, \cdots, x_{j}^{(n)}\right)^{\mathrm{T}}$ ，则： $x_i$