KNN

最新推荐文章于 2024-04-29 11:28:57 发布

kakak_

最新推荐文章于 2024-04-29 11:28:57 发布

阅读量686

点赞数 1

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/kakak_/article/details/105361540

版权

38 篇文章 2 订阅

订阅专栏

KNN

对于k值的选择，一般根据样本的分布，通过交叉验证选择一个合适的k值。
选择较小的k值，相当于用较小领域中的训练实例进行预测，训练误差会减小，与此同时带来的问题是泛化误差会增大，整体模型变得复杂，容易发生过拟合。（反之同理）
对于距离的度量，最常用的是欧式距离: $\sqrt{\sum\limits_{i=1}^{n}(x_i-y_i)^2}$ 曼哈顿距离: ${\sum\limits_{i=1}^{n}|x_i-y_i|}$ 闵可夫斯基距离(Minkowski Distance) $\sqrt[p] {\sum\limits_{i=1}^{n}(|x_i-y_i|)^p}$

KNN蛮力实现(brute-force)

KD树实现(KDTree)

所谓的KD树就是K个特征维度的树，这里的K和KNN中的K不同。KNN中的K代表最近的K个样本，KD树中的K代表样本特征的维数。
KD树的建立

从m个样本的n维特征中，分别计算n个特征取值的方差，用方差最大的第k维特征 $n_k$ 来作为根节点。
对于这个特征，选择特征 $n_k$ 取值的中位数 $n_{km}$ 对应的样本作为划分点，将所有第k维特征取值小于 $n_{km}$ 的样本划入左子树，大于等于 $n_{km}$ 的样本划入右子树。
对于左子树和右子树，采用同样的办法迭代寻找更节点，递归生成KD树。

KD树搜索最近邻

对于一个目标点，首先在KD树里面找到包含目标点的叶子节点。以目标点为圆心，以目标点到叶子节点样本实例的距离为半径，得到一个超球体，最近邻的点一定在这个超球体内部。
然后返回叶子节点的父节点，检查另一个子节点包含的超矩形体是否和超球体相交，如果相交就到这个子节点寻找是否有更加近的近邻，有的话就更新最近邻。
如果不相交直接返回父节点的父节点，在另一个子树继续搜索最近邻。当回溯到根节点时，算法结束，此时保存的最近邻节点就是最终的最近邻。

KD树预测

球树(BallTree)实现

KD树在处理不均匀分布的数据集时，效率并不高。
在这里插入图片描述
如果目标星向左偏移一点，那么虚线圆会如红线所示那样扩大，导致与左上方矩形的右下角相交，那么就需要检查这个左上方矩形。
球树的建立

先构建一个超球体，这个超球体是包含所有样本的最小球体。
从球中选择一个离球的中心最远的点，然后选择第二个点离第一个点最远，将球中所有的点分配到离这两个聚类中心最近的一个上，然后计算每个聚类的中心，以及聚类能够包含它所有数据点所需的最小半径。这样我们得到了两个子超球体。
对于这两个子超球体，递归执行得到了一个球树。

球树搜索最近邻