一、kd树算法分为两步,第一步是构建平衡kd树,第二部是搜索预测数据的最近邻
二、构建kd树
输入:k维空间数据集T = {},其中 = {},特征维度k,训练样本数维n
输出:kd树
从第1个特征到第k个特征,每次选择一个特征,找出该特征取值的中位数,以此特征的中位数划分超平面,每次划分都是在之前划分的基础进行的,也就是在上次划分的每个子区间选择下一特征进行划分,当特征用完了,则重新从第一个特征开始划分,直到区域内无实例为止,即每个样本都在所划分的超平面上。
这里我采用递归构建kd树,因为实现比较简单,构建出来一颗平衡二叉树,也可以用B树,详见代码中的buildTree函数。
三、kd树的最近邻搜索
输入:已构建的kd树,目标点X
输出:X的最近邻
a.在kd树种找出包含目标点X的叶节点,方法是从根节点出发递归访问kd树,若欧氏距离小于切分点则访问左子树,否则访问右子树(平衡二叉树搜索算法),直到找到相应的叶节点
b.从叶节点回溯,检查被回溯的节点与X的欧氏距离,如果小于原来距离,则将其设为最紧邻,否则查看其另一子节点比较。循环回溯,直到根节点。
关于二叉树的遍历与回溯一般采用栈,不清楚的可以翻翻经典的《数据结构》
最后将完全代码贴于下发,欢饮批评指正
__author__ = 'Gujun(Bill) '
# kd树生成与搜索
#2018/11/05
import numpy as np
def countDistance(x1,x2):#计算欧氏 距离
dim = len(x1)
distance = 0
for i in range(dim):
distance += (x1[i]-x2[i])*(x1[i]-x2[i])
return np.sqrt(distance)
class Node:
def __int__(self, data, left, right,parent):
self.data = data
self.left = left
self.right = right
#self.parent = parent
def getCharNum(dataMat): #获取特征数
return dataMat.shape[1]
# def buildTree(dataMat, aproch, k,parent): #构建kd树,带父节点
# if dataMat.shape[0] > 0
# sorted(dataMat, key=dataMat[:][aproch % (k - 1)]) #对数据排序并改变了矩阵
# left_mat = dataMat[:][0:k / 2]
# right_mat = dataMat[:][k / 2 + 1, :]
# node = Node()
# node.data = dataMat[dataMat.shape[0] / 2]
# node.left = buildTree(left_mat, aproch + 1, k,node)
# node.right = buildTree(right_mat, aproch + 1,k, node)
# node.parent = parent
# #递归构建kd树
# #node.parent = parent
# else:
# node = None
# return node
def buildTree(dataMat, aproch, k): #构建kd树
if dataMat.shape[0] > 0
sorted(dataMat, key=dataMat[:][aproch % (k - 1)]) #对数据排序并改变了矩阵
left_mat = dataMat[:][0:k / 2]
right_mat = dataMat[:][k / 2 + 1, :]
node = Node(dataMat[dataMat.shape[0] / 2],left_mat,right_mat)
#递归构建kd树
#node.parent = parent
else:
node = None
return node
def searchKdTree(node, inputVec, aproch, k,stack):#用堆栈或者建树时保存父节点
if node[aproch % (k - 1)] > inputVec[aproch % (k - 1)] and node.right != None:
stack.append(node)
return searchKdTree(node.right, inputVec, aproch + 1, k)
elif node[aproch % (k - 1)] <= inputVec[aproch % (k - 1)] and node.right != None:
stack.append(node)
return searchKdTree(node.left, inputVec, aproch + 1, k)
else:
#node =
return node
def revSearch(stack,inputVec): #逆向搜索
minDistance = 655345
node = Node()
minNode = Node()
minNode = stack[-1]
while len(stack) > 0:
distance = countDistance(node.data[:,-1],inputVec)#计算本身节点
if distance < minDistance:
minDistance = distance
minNode = node
if node.right != None:
distance = countDistance(node.right.data[:,-1],inputVec)#计算右子节点距离
if distance < minDistance:
minDistance = distance
minNode = node.right
stack.pop()#弹出最后一个元素继续回溯
return minNode,minDistance