knn算法原理与实现(2)kd树算法原理和python实现

一、kd树算法分为两步,第一步是构建平衡kd树,第二部是搜索预测数据的最近邻

二、构建kd树

输入:k维空间数据集T = {X_{1},X_{2}...X_{n}},其中X_{i} = {x_{i}^{1},x_{i}^{2}...x_{i}^{k}},特征维度k,训练样本数维n

输出:kd树

从第1个特征到第k个特征,每次选择一个特征,找出该特征取值的中位数,以此特征的中位数划分超平面,每次划分都是在之前划分的基础进行的,也就是在上次划分的每个子区间选择下一特征进行划分,当特征用完了,则重新从第一个特征开始划分,直到区域内无实例为止,即每个样本都在所划分的超平面上。

这里我采用递归构建kd树,因为实现比较简单,构建出来一颗平衡二叉树,也可以用B树,详见代码中的buildTree函数。

三、kd树的最近邻搜索

输入:已构建的kd树,目标点X

输出:X的最近邻

a.在kd树种找出包含目标点X的叶节点,方法是从根节点出发递归访问kd树,若欧氏距离小于切分点则访问左子树,否则访问右子树(平衡二叉树搜索算法),直到找到相应的叶节点

b.从叶节点回溯,检查被回溯的节点与X的欧氏距离,如果小于原来距离,则将其设为最紧邻,否则查看其另一子节点比较。循环回溯,直到根节点。

关于二叉树的遍历与回溯一般采用栈,不清楚的可以翻翻经典的《数据结构》

最后将完全代码贴于下发,欢饮批评指正

__author__ = 'Gujun(Bill) '
# kd树生成与搜索
#2018/11/05

import numpy as np

def countDistance(x1,x2):#计算欧氏 距离
    dim = len(x1)
    distance = 0
    for i in range(dim):
        distance += (x1[i]-x2[i])*(x1[i]-x2[i])
    return np.sqrt(distance)

class Node:
    def __int__(self, data, left, right,parent):
        self.data = data
        self.left = left
        self.right = right
        #self.parent = parent


def getCharNum(dataMat):  #获取特征数
    return dataMat.shape[1]


# def buildTree(dataMat, aproch, k,parent):  #构建kd树,带父节点
#     if dataMat.shape[0] > 0
#         sorted(dataMat, key=dataMat[:][aproch % (k - 1)])  #对数据排序并改变了矩阵
#         left_mat = dataMat[:][0:k / 2]
#         right_mat = dataMat[:][k / 2 + 1, :]
#         node = Node()
#         node.data = dataMat[dataMat.shape[0] / 2]
#         node.left = buildTree(left_mat, aproch + 1, k,node)
#         node.right = buildTree(right_mat, aproch + 1,k, node)
#         node.parent = parent
#          #递归构建kd树
#         #node.parent = parent
#     else:
#         node = None
#     return node
def buildTree(dataMat, aproch, k):  #构建kd树
    if dataMat.shape[0] > 0
        sorted(dataMat, key=dataMat[:][aproch % (k - 1)])  #对数据排序并改变了矩阵
        left_mat = dataMat[:][0:k / 2]
        right_mat = dataMat[:][k / 2 + 1, :]
        node = Node(dataMat[dataMat.shape[0] / 2],left_mat,right_mat)
         #递归构建kd树
        #node.parent = parent
    else:
        node = None
    return node


def searchKdTree(node, inputVec, aproch, k,stack):#用堆栈或者建树时保存父节点
    if node[aproch % (k - 1)] > inputVec[aproch % (k - 1)] and node.right != None:
        stack.append(node)
        return searchKdTree(node.right, inputVec, aproch + 1, k)
    elif node[aproch % (k - 1)] <= inputVec[aproch % (k - 1)] and node.right != None:
        stack.append(node)
        return searchKdTree(node.left, inputVec, aproch + 1, k)
    else:
        #node =
        return node

def revSearch(stack,inputVec): #逆向搜索
    minDistance = 655345
    node = Node()
    minNode = Node()
    minNode = stack[-1]
    while len(stack) > 0:
        distance = countDistance(node.data[:,-1],inputVec)#计算本身节点
        if distance < minDistance:
            minDistance = distance
            minNode = node
        if node.right != None:
            distance =  countDistance(node.right.data[:,-1],inputVec)#计算右子节点距离
            if distance < minDistance:
                minDistance = distance
                minNode = node.right
        stack.pop()#弹出最后一个元素继续回溯
    return minNode,minDistance

 

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值