KNN(近邻)算法

最新推荐文章于 2024-03-04 06:00:00 发布

如风过境YD

最新推荐文章于 2024-03-04 06:00:00 发布

阅读量256

点赞数

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/qq_35649945/article/details/98962643

版权

Machine Learning 专栏收录该内容

27 篇文章 4 订阅

订阅专栏

K近邻算法（K-Nearest-Neighbor）是一种常用的监督学习的方法。
给定某测试样本，基于某种距离度量（如曼哈顿距离，欧几里得距离等）找出训练集中与其最靠近k个训练样本，通过这k个训练样本来评估这个测试样本特征。（近朱者赤，近墨者黑），若是分类任务，则可对这k个样本使用投票法得出最终结果，如果是回归任务，则可使用平均法预测输出结果，还可以通过测试样本对k个训练样本的距离进行加权平均。
实例：检测某电影是什么类型的电影：已知属性（打斗镜头，接吻镜头）
在这里插入图片描述
将上面的样本信息映射到坐标轴上，更易观测：

然后计算测试样本与训练样本的空间距离，
二维平面的计算公式：
$|AB|=\sqrt{(x_1-x_2)^2+(y_1-y_2)^2}$
空间平面上使用欧几里得距离来衡量 $\bm m$ 样本和 $\bm n$ 样本之间的距离：
$dist(\bm{m，n})=\sqrt{(m_1-n_1)^2+(m_2-n_2)^2+...+(m_i-n_i)^2}=\sqrt{\sum_{i=1}^N(m_i-n_i)^2}$
然后根据测试样本的打斗镜头和接吻镜头与上面的点进行距离计算，可找出k个离测试样本距离最近的点。就可以使用投票法决定测试样本的电影类型了。
比如，现在K=4,那么在这个电影例子中，把距离按照升序排列，距离绿点电影最近的前4个的电影分别是《后来的我们》、《前任3》、《无问西东》和《红海行动》,这四部电影的类别统计为爱情片:动作片=3:1,出现频率最高的类别为爱情片，所以在k=4时,绿点电影的类别为爱情片。这个判别过程就是k近邻算法。
上例可写成函数：

import pandas as pd
"""
函数功能：KNN分类器
new_data:需要预测分类的数据
dataSet:训练集
k:k近邻算法的参数，即选择距离最小的k个点
"""
def classify(new_data,dataSet,k):
    result=[]
    dist=list((((dataSet.iloc[:,1:3]-new_data)**2).sum(1))**0.5)#计算距离
    dist_1=pd.DataFrame({'dist':dist,'label':(dataSet.iloc[:,3])})
    dr=dist_1.sort_values(by='dist')[:k]#选择前k个最小的
    re=dr.loc[:,'labels'].value_counts()#投票法
    result.append(re.index[0])
    return result

以上可以得出k近邻算法的一般步骤：

计算已知类别数据集中的点与当前点之间的距离;
按照距离递增次序排序;
选取与当前点距离最小的k个点;
确定前k个点所在类别的出现频率;
返回前k个点出现频率最高的类别作为当前点的预测类别。

需要注意K的取值对预测结果有很大的影响，比如：
在这里插入图片描述
当k=3时，绿色会被归为红色所代表的类，k=5时则会被归为蓝色所代表的类。

kd树

当我们遇见的样本数较少时，我们可以轻易的求取样本之间的距离，但当训练集的样本成千上万甚至更多时，一个个的计算样本间的距离再进行比较就会相当的麻烦，为了提高kNN搜索的效率，可以采用特殊的结构存储训练数据，减少计算距离的次数，kd树就是其中一种。

kd树中的k与KNN中的k的含义不同，kd树中的k代表的是k维空间，即训练集中的每个样本有k个属性。
kd树的建造过程与二叉排序树的建造过程或者插入排序类似，只不过kd树是在k维空间中建树。

假设有训练集 $D={x_1,x_2,x_3,..,x_n}$ ，样本 $x_i$ 有属性 $x_i=\{x_i^1,x_i^2,x_i^3,...,x_i^k\}^T$ ,

构建kd树：

构造根结点，根结点对应于包含T的k维空间的超矩形区域。
选择 $x^1$ 坐标中样本取值的中位数，将样本划分到不同的两个子区域。
由根结点生成深度为1的左、右子结点:左子结点对应坐标 $x^1$ 小于切分点的子区域，右子结点对应于坐标 $x^1$ 大于切分点的子区城.将落在切分超平面上的实例点保存在根结点.
重复:对深度为j的结点，选择 $x^i$ 为切分的坐标轴，i= j%k+1,以该结点的区域中所有实例的 $x^i$ (坐标的中位数为切分点，将该结点对应的超矩形区域切分为两个子区域.
由该结点生成深度为j+1的左、右子结点:左子结点对应坐标 $x^i$ 小于切分点的子区域，右子结点对应坐标 $x^i$ 大于切分点的子区域.
将落在切分超平面上的实例点保存在该结点，
直到两个子区域没有实例存在时停止，从而形成kd树的区域划分

kd树建造完成后，若给定一个目标点应该怎样找到与其邻近的点呢？

在kd树中找出包含目标点x的叶结点:从根结点出发，递归地向下访问kd树.若目标点x当前维的坐标小于切分点的坐标，则移动到左子结点，否则移动到右子结点.直到子结点为叶结点为止。（即依据kd树的建造过程，找到目标点应该划分的子区域，直至到最后一个结点）
以此叶结点为“当前最近点”.
递归地向上回退，在每个结点进行以下操作:
(a)比较该节点与当前最近点到目标点的距离，如果该结点保存的实例点比当前最近点距离目标点更近，则以该实例点为“当前最近点”.
(b)当前最近点一定存在于该结点一个子结点对应的区域.检查其兄弟结点对应的区域是否有更近的点.具体地，检查其兄弟结点对应的区域是否与以目标点为球心、以目标点与“当前最近点”间的距离为半径的超球体相交.
如果相交，可能在其兄弟结点对应的区域内存在距目标点更近的点，移动到另一个子结点，接着，递归地进行最近邻搜索;
如果不相交，向上回退，
当回退到根结点时，搜索结束.最后的“当前最近点”即为x的最近邻点.

如果实例点是随机分布的，kd 树搜索的平均计算复杂度是o(logN),这里N是训练实例数. kd 树更适用于训练实例数远大于空间维数时的k近邻搜索.当空间维数接近训练实例数时，它的效率会迅速下降，几乎接近线性扫描,

如风过境YD

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
KNN(近邻)算法

然后计算空间距离欧几里得距离计算已知类别数据集中的点与当前点之间的距离;按照距离递增次序排序;选取与当前点距离最小的k个点;确定前k个点所在类别的出现频率;返回前k个点出现频率最高的类别作为当前点的预测类到。比如，现在K=4,那么在这个电影例子中，把距离按照升序排列，距离绿点电影最近的前4个的电影分别是《后来的我们》、《前任3》、《无问西东》和《红海行动》,这四部电影...
复制链接

扫一扫

专栏目录