一、K近邻模型
模型:特征空间的划分,基本三要素——距离度量、k值的选择何分类决策规则
策略:距离度量:欧式距离、曼哈顿距离等
k值:通常采用交叉验证(k越小,越容易过拟合)
分类决策规则:多数表决
二、KNN算法基本步骤:
1)计算待分类点与已知类别的点之间的距离
2)按照距离递增次序排序
3)选取与待分类点距离最小的k个点
4)确定前k个点所在类别的出现次数
5)返回前k个点出现次数最高的类别作为待分类点的预测分类
三、kd树
kd树是一种便于对k维空间中的数据进行快速检索的数据结构。kd树是二叉树,表示对k维空间的一个划分,其每个节点对应于k维空间划分中的一个超矩形区域,利用kd树可以省去大部分数据点的搜索,从而减少搜索的计算量。
3.1 构造kd树
kd树难点解释:
- 切分维度选择最优化:方差从大到小,方差越大,数据越分散,切分效果越好
- 中值选择优化:第一种方法:对所有数据,排序选其中值;第二种方法:对随机选择部分数据,排序选其中值。
四、用kd树的最近邻搜索
输入:已构造的kd树;目标点x;
输出:x的最近邻。
1)在kd树中找出包含目标点x的叶节点:从根节点出发,递归的向下访问kd树。若目标点x当前维的坐标小于切分点的坐标,则移动到左子节点,否则移动到右子节点。直到子节点为叶节点为止(停在父节点)。
2)以此叶节点为“当前最近点“
3)递归地向上回退,在每个节点进行以下操作;
- a、如果该节点(父节点)保存的实例点比当前最近的点距离目标点更近,则以该实例点位”当前最近点“。
- b、当前最近点一定存在于该节点一个子节点对应的区域,检查该子节点的父节点的另一个子节点对应的区域是否有更近的点,具体的,检查另一子节点对应的区域是否与以目标点位球心、以目标点与”当前最近点“间的距离为半径的超球体相交。
如果相交,可能在另一个子节点对应的区域内存在距目标点更近的点,移动到另一个子节点,接着,递归的进行最 近邻搜索;
如果不相交,向上回退。
4)当回退到跟节点时,搜索结束,最后的”当前最近点“即为x的最近邻点。