KNN算法

最新推荐文章于 2023-10-18 16:30:21 发布

cyoutetsu

最新推荐文章于 2023-10-18 16:30:21 发布

阅读量356

点赞数

分类专栏：聚类模型

本文链接：https://blog.csdn.net/cyoutetsu/article/details/78010109

版权

4 篇文章 0 订阅

订阅专栏

K近邻

模型目的：规定一个训练数据集，对新输入的实例，在训练数据集中找到与该实例最邻近的K个实例，这K个实例的多数属于某一个类，就把该输入的实例分配给这个类。

模型的三要素

$L_p$ 距离： $L_p(x_i,x_j)=\left[\sum|x_i^{(l)}-x_j^{(l)}|^p\right]^{\frac{1}{p}}$

使用0-1损失函数进行多数表决

由此可以得出误分类的概率： $P(Y\ne f(x)) = 1-P(y=f(x))$

对于给定的实例X，其最近邻的K个训练实例构成集合 $N_k(X)$ ，涵盖 $N_k(X)$ 的区域类别为 $C_j$ ，那么误分类的概率为：

$\frac{1}{k}\sum I(y_i\ne c_j)=1-\frac{1}{k}\sum I(y_i=C_j)$

所以，实际上多数表决的分类决策规则等价于经验风险最小化，这样我们就找出了优化的函数。

实现K近邻时，主要考虑的问题是如何对训练数据进行快速K近邻搜索，为了提高K近邻搜索时的效率，可以考虑使用特殊的结构存储数据，即KD树。

对K维空间的实例点进行储存以便对其进行快速检索的二叉树型数据结构。相当的于不断地用垂直于坐标轴的超平面将K维空间切分，构成一系列K维超矩形区域，每一个结点对应一个区域。

KD树包括构建和搜索两个步骤

对于K维空间数据集 $T=\{x_1,x_2,...x_n\}$ ，其中每一个特征都对应 $x_i=\{x_i^{(1)},x_i^{(2)}...x_i^{(T)}\}$

首先，构造根节点，对应于包含T的K维空间的超矩形区域，选择 $x^{(1)}$ 为坐标轴，以T中所有实例的 $x^{(1)}$ 坐标的中位数为切分点，将根节点对应的超矩形区域分为2个子区域。切分由通过切分点并与坐标轴 $x^{(1)}$ 垂直的超平面实现，将落在切分超平面上的实例点保存在根节点。

然后，重复进行切分，知道2个子区域没有实例时为止。

给定一个目标点，搜索其最近邻

原理：

步骤：

从根节点出发，递归地向下访问KD树，直到找到叶结点为止
这个叶结点就是“当前最近点”
递归地向上回退，对于每个结点：
- 如果该结点保存的实例点与当前最近点距离目标点更近，则该点为新的“当前最新点”
- 检查“当前最新点”另外一边的点的距离，即检查另一子节点对应的区域是否与以目标点为球心，以目标点与“当前最近点”见得距离为半径的球体相交，如果相交，则去另一边寻找“当前最近点”
- 当回退到根节点时，搜索结束，获得最终的“当前最近点”

如果实例点是随机分布的，KD树搜索的平均计算复杂度为O(logN)

KD树更适用于训练实例远大于样本空间维度的样本，当样本数接近样本维度时，KD树相比线性扫描并无优势。

关注

专栏目录