python2.7
import numpy as np
构建Kd树:
KD树的构造
一维的二叉查找树很好构造,先对所有数据排序,然后每次取中值,把数据分成两半,左半为左子树,右半为右子树;然后递归下去就好了。这样可以保证构造出来的二叉树是平衡的。
KD树处理的数据是多维的,因此每次划分需要选定某一维作为参考来划分数据。选定后所有数据按这一维排序,然后划分成左子树,右子树。参考维度的选定可以依次选,比如这一层以X维划分,下一层就以Y维,如此循环反复。更好的方法是每次选择方差最大的那一维。只要划分以后左右区域都还有数据,划分就进行下去,直到按某个节点划分完以后两边没有数据点为止。
# kd-tree每个结点中主要包含的数据结构如下
class KdNode(object):
def __init__(self, dom_elt, split, left, right):
self.dom_elt = dom_elt # k维向量节点(k维空间中的一个样本点)
self.split = split # 整数(进行分割维度的序号)
self.left = left # 该结点分割超平面左子空间构成的kd-tree
self.right = right # 该结点分割超平面右子空间构成的kd-tree
class KdTree(object):
def __init__(self, data):
k = len(data[0]) # 数据维度
def CreateNode(split, data_set): # 按第split维划分数