python数据结构 树_Python数据结构应用6——树

数据结构中的树的结点和机器学习中决策树的结点有一个很大的不同就是,数据结构中的树的每个叶结点都是独立的。

树的高度(Height)指叶结点的最大层树(不包含根结点)

一、树的建立

树可以这样定义:一棵树由一系列结点和一系列连接结点的边组成

树也可以这样定义: 一棵树有根和其他子树组成,这些子树也是树

在python,使用的定义都是后者。

1.1.list of lists

对于一个list:['q',[],[]],代表的是一棵树(子树),’q’是根结点,[],[]分别左右两个子结点。所以,有一个左结点为'a'的树可以写为['q',['a',[],[]],[]]

my_tree = ['a', ['b', ['d',[],[]], ['e',[],[]] ], ['c',['f',[],[]], []] ]

在这种定义的情况下,根结点为my_tree[0],左结点为my_tree[1],右结点为my_tree[2]

def binary_tree(r):

return [r, [], []]

def insert_left(root, new_branch):

t = root.pop(1) # The left child position

if len(t) > 1: # if not empty

# The origin left child turn to be the left child of new_branch

root.insert(1, [new_branch, t, []])

else:

root.insert(1, [new_branch, [], []])

return root

def insert_right(root, new_branch):

t = root.pop(2)

if len(t) > 1:

root.insert(2, [new_branch, [], t])

else:

root.insert(2, [new_branch, [], []])

return root

def get_root_val(root):

return root[0]

def set_root_val(root, new_val):

root[0] = new_val

def get_left_child(root):

return root[1]

def get_right_child(root):

return root[2]

x = binary_tree('a')

insert_left(x,'b')

insert_right(x,'c')

insert_right(get_right_child(x), 'd') # important!

insert_left(get_right_child(get_right_child(x)), 'e')

['d', ['e', [], []], []]

1.2 Nodes and References

这种思想主要是构建一个类,并采用嵌套的方法,生成左右结点(子树)

1389398-20180509204938552-612136633.png

class BinaryTree:

def __init__(self, root):

self.key = root

self.left_child = None

self.right_child = None

def insert_left(self, new_node):

if self.left_child == None:

self.left_child = BinaryTree(new_node)

else:

t = BinaryTree(new_node)

t.left_child = self.left_child

self.left_child = t

def insert_right(self, new_node):

if self.right_child == None:

self.right_child = BinaryTree(new_node)

else:

t = BinaryTree(new_node)

t.right_child = self.right_child

self.right_child = t

def get_right_child(self):

return self.right_child

def get_left_child(self):

return self.left_child

def set_root_val(self,obj):

self.key = obj

def get_root_val(self):

return self.key

x = BinaryTree('a')

x.insert_left('b')

x.insert_right('c')

x.get_right_child().insert_right('f')

x

<__main__.BinaryTree at 0x105930278>

这两种构造方法都没有办法返回到父结点,具体见 三、解析树

二、基于二叉堆的优先队列

之前的队列(queue)都是先进先出的数据结构。然而在优先队列中,在队列里的数据都有一个优先级标签。 在优先级队列中,队列的项的逻辑顺序由他们的优先级决定。最高优先级在队列的前面,最低优先级在项的后面。

实现优先级队列的经典方法是使用成为二叉堆的数据结构,它可以在\(O(log(n))\)时间中排队和取出队列

PS:二叉堆(binary heap)和stack的那个堆不是同一回事,这个堆(heap)在结构上是一棵完全二叉树,在实现上使用的数组list,采用数组的index值表示父结点及子结点。二叉堆有两个常见的变体:最小堆(其中最小的键总是在前面)和最大堆。

由于二叉堆要是一个完全二叉树,所以为了保证log(n)的时间量,必须保证树是平衡的。

1389398-20180509204956945-1544046205.png

如图是一个二叉堆,堆的结构类似树,实现方式由list实现。list的第一个元素是0,至于为什么要这样呢?因为树上的每一个元素都有对应的index,要满足左右结点分别是2*p&2*p+1,如果索引index是从0开始,则不满足。

二叉堆的属性是一个很重要的东西,二叉堆的所有操作基本都基于它的属性:每个结点的父结点都比它本身要小 (最小堆)

class BinHeap:

def __init__(self):

self.heap_list = [0]

self.current_size = 0

2.1 插入(insert)操作

在二叉堆中插入一个项,过程是:将这个要插入的项置于二叉堆list的最后一项,由于二叉堆要保持它的属性(每个结点的父结点都比它本身要小),这个项与其父结点进行比较,小的在上,大的在下进行可能的交换,这种比较要一直持续到根结点。

这种交换由于是将待插入的项从下往上交换,所以叫做percolate_up

1389398-20180509205018659-426305768.png

def perc_up(self, i):

while i//2 > 0:

if self.heap_list[i] < self.heap_list[i//2]:

self.heap_list[i],self.heap_list[i//2]=self.heap_list[i//2],self.heap_list[i]

i = i//2

def insert(self, k):

self.heap_list.append(k)

self.current_size += 1

self.perc_up(self, self.current_size)

2.2 删除(出队)操作

由于我们研究的是最小堆,所以出队操作是移出值最小的那个结点,即根结点。

具体操作:移除根结点后,将list的最后一个项放置在根结点的位置上,然后根据二叉堆的属性进行percolate_down操作(即根结点的项依次向下进行比较)

1389398-20180509205031212-1525170930.png

def perc_down(self, i):

while (i * 2) <= self.current_size:

mc = self.min_child(i)

if self.heap_list[i] > self.heap_list[mc]:

self.heap_list[i],self.heap_list[mc]=self.heap_list[mc],self.heap_list[i]

i = mc

# 返回左右结点小的那一个

def min_child(self, i):

if i*2+1 > self.current_size:

return i*2

else:

if self.heap_list[i*2] < self.heap_list[i*2+1]:

return i*2

else:

return i*2+1

def del_min(self):

# The first element is 0

ret_val = self.heap_list[1]

self.heap_list[1] = self.heap_list[self.current_size]

self.current_size = self.current_size - 1

self.heap_list.pop()

self.perc_down(1)

return ret_val

2.3 建立二叉堆

两种想法:

1.可以将list直接进行排序,最低花费\(O(nlogn)\),得出的list肯定是个二叉堆

2.对于一个list的每一个项从左往右进行percolate_down操作,时间复杂度\(O(n)\)

1389398-20180509205056059-2008853094.png

def build_heap(self, a_list):

i = len(a_list)//2

self.current_size = len(a_list)

self.heap_list = [0] + a_list[:]

while(i > 0):

self.perc_down(i)

i = i - 1

三、解析树(parse tree)

把解析表达式表示成树的形式,如:\(((7+3)*(5-2))\)可以表示成

1389398-20180509205113203-1821051043.png

解析树的形成可以定义为以下四个规则:

1.如果遇到(,意味着有一个新的表达式,则创建一棵新子树(添加一个新子结点,且再创建这个新结点的左孩子,将处理目标移到这个左孩子上)

2.如果遇到[+,-,*,/]操作符(operators),将此操作符置于现结点,同时创建一个右孩子,将处理目标移到这个右孩子上

3.如果遇到一个number,将这个number置于到现结点,将处理目标返回到父结点

4.如果遇到),将处理目标返回到父结点。

def build_parse_tree(fp_exp):

fp_list = fp_exp.split()

p_stack = Stack()

e_tree = BinaryTree('')

p_stack.push(e_tree)

current_tree = e_tree

for i in fp_list:

if i == '(':

current_tree.insert_left('')

p_stack.push(current_tree)

current_tree = current_tree.get_left_child()

elif i not in ['+','-','*','/',')']:

current_tree.set_root_val(int(i))

parent = p_stack.pop()

current_tree = parent

elif i in ['+','-','*','/']:

current_tree.set_root_val(i)

current_tree.insert_right('')

p_stack.push(current_tree)

current_tree = current_tree.get_right_child()

elif i == ')':

current_tree = p_stack.pop()

else:

raise ValueError

return e_tree

由于之间构造的二叉树类无法访问其父结点,所以这里要新建一个堆在储存当前的父结点。

在遇到(和operaters的这两个操作都需要将当前操作结点移到左右孩子上,所以这两个操作需要将父结点入堆。

四、树的遍历

三种遍历方式:先序遍历(preorder,中左右), 中序遍历(inorder,左中右), 后序遍历(postorder,左右中),他们的不同在于每个结点访问的顺序。

先,中,后都是对于根结点来说的。

在python中两种方法进行遍历:

1.外界函数

2.类中函数

事实证明外界函数处理遍历更加有效率,因为在大多数情况下,遍历都会跟别的操作混合在一起,所以外界函数修改更方便。

def preorder(tree):

if tree:

print(tree.get_root_val())

preorder(tree.get_left_child())

preorder(tree.get_right_child())

def preorder(self): # 类中函数

print(self.key)

if self.left_child:

self.left.preorder()

if self.right_child:

self.right.preorder()

def postorder(tree):

if tree:

postorder(tree.get_left_child())

postorder(tree.get_right_child())

print(tree.get_root_val)

def inorder(tree):

if tree:

inorder(tree.get_left_child())

print(tree.get_root_val)

inorder(tree.get_right_child())

4.1 解析树evalute

import operator

def postorder_eval(tree):

opers = {'+':operator.add,'-':operator.sub,'*':operator.mul,

'/':operator.truediv}

res1 = None

res2 = None

if tree:

res1 = postorder_eval(tree.get_left_child())

res2 = postorder_eval(tree.get_right_child())

if res1 and res2:

return opers[tree.get_root_val()](res1,res2)

else:

return tree.get_root_val()

五、二叉搜索树(BST)

二叉搜索树的实现主要依赖于它的性质(BST property):parent的key值比左结点大,比右结点小。

1389398-20180509205139940-694037890.png

class TreeNode:

def __init__(self, key, val, left=None, right=None, parent=None):

self.key = key

self.payload = val

self.left_child = left

self.right_child = right

self.parent = parent

def has_left_child(self):

return self.left_child

def has_right_child(self):

return self.right_child

def is_left_child(self):

return self.parent and self.parent.left_child == self

def is_right_child(self):

return self.parent and self.parent.right_child == self

def is_root(self):

return not self.parent

def is_leaf(self):

return not (self.right_child or self.left_child)

def has_any_children(self):

return self.right_child or self.left_child

def has_both_children(self):

return self.right_child and self.left_child

def replace_node_data(self, key, value, lc, rc):

self.key = key

self.payload = value

self.left_child = lc

self.right_child = rc

if self.has_left_child():

self.left_child.parent = self

if self.has_right_child():

self.right_child.parent = self

BinarySearchTree 这个类很复杂:

class BinarySearchTree:

def __init__(self):

self.root = None

self.size = 0

def length(self):

return self.size

def __len__(self):

return self.size

def __iter__(self):

return self.root.__iter__()

下面的put()函数在BinarySearchTree中,他的主要功能是插入一个新node。如果树没有根结点,即将待插入结点为根结点,如果树有根结点,即执行该类的私有函数_put()

def put(self, key, val):

if self.root:

self._put(key, val, self.root)

else:

self.root = TreeNode(key ,val)

self.size = self.size + 1

def _put(self, key, val, current_node):

if key < current_node.key:

if current_node.has_left_child():

self._put(key, val, current_node.left_child)

else:

current_node.left.child = TreeNode(key, val, parent=current_node)

else:

if current_node.has_right_child():

self._put(key, val, current_node.right_child)

else:

current_node.right_child = TreeNode(key, val, parent=current_node)

下面是python的魔术方法,能轻易的进行赋值操作:(下列函数生成后即可以执行 my_zip_tree[32]=='hello' 这种赋值操作)

def __setitem__(self, k, v):

self.put(k, v)

get()操作是put()的反操作,用来找到结点

def get(self, key):

if self.root:

res = self._get(key, self.root)

if res:

return res.payload

else:

return None

else:

return None

def _get(self, key, current_node):

if not current_node:

return None

elif current_node.key == key:

return current_node

elif key < current_node.key:

return self._get(key, current_node.left_child)

else:

return self._get(key, current_node.right_child)

def __getitem(self, key):

return self.get(key)

使用get()函数,我们还可以创建in操作,即创建__contains__函数:

def __contains__(self, key):

if self._get(key, self.root):

return True

else:

return False

if 'Northfield' in my_zip_tree:

print("oom ya ya")

删除结点操作是二叉搜索树中最复杂的部分,主要过程分为两步:首先,使用get()操作找到要删除的node;然后,删除node且保证其他子树连接仍然保持二叉树属性。

def delete(self, key):

if self.size > 1:

node_to_remove = self._get(key, self.root)

if node_to_remove:

self.remove(node_to_remove)

self.size = self.size - 1

else:

raise KeyError('Error, key not in tree')

elif self.size == 1 and self.root.key == key:

self.root = None

self.size = self.size - 1

else:

raise KeyError('Error, key not in tree')

def __delitem__(self, key):

self.delete(key)

remove()操作分为三种情况:

第一种:删除的结点没有孩子,这种情况很直接,直接删除就ok

if current_node.is_leaf():

if current_node == current_node.parent.left_child:

current_node.parent.left_child = None

else:

current_node.parent.right_child = None

第二种:删除的结点有一个孩子(这里只考虑这个孩子是左孩子的情况,右孩子的情况是对称的)

1.如果要删除的结点是左孩子,那么我们只要更新它的左孩子与他的父结点对接即可

2.如果要删除的结点是右孩子,那么我们只要更新它的右孩子与他的父结点对接即可

3.如果删除的结点没有父母,那么他肯定是根结点

else: # this node has one child

if current_node.has_left_child():

if current_node.is_left_child():

current_node.left_child.parent = current_node.parent

current_node.parent.left_child = current_node.left_child

elif current_node.is_right_child():

current_node.left_child.parent = current_node.parent

current_node.parent.right_child = current_node.left_child

else:

current_node.replace_node_data(current_node.left_child.key,

current_node.left_child.payload,

current_node.left_child.left_child,

current_node.left_child.right_child)

else:

if current_node.is_left_child():

current_node.right_child.parent = current_node.parent

current_node.parent.left_child = current_node.right_child

elif current_node.is_right_child():

current_node.right_child.parent = current_node.parent

current_node.parent.right_child = current_node.right_child

else:

current_node.replace_node_data(current_node.right_child.key,

current_node.right_child.payload,

current_node.right_child.left_child,

current_node.right_child.right_child)

第三种:删除的结点有两个孩子。这时,并不能直接用他的孩子替代,这个时候需要找一个继任者(successor),这个继任者满足两个条件(1.在删除结点中的子孙中第一个比他大的结点。2.这个继任者最多有一个孩子),继任者接替删除结点的位置。

elif current_node.has_both_children(): #interior

succ = current_node.find_successor()

succ.splice_out()

current_node.key = succ.key

current_node.payload = succ.payload

def find_successor(self):

succ = None

if self.has_right_child():

succ = self.right_child.find_min()

else:

if self.parent:

if self.is_left_child():

succ = self.parent

else:

self.parent.right_child = None

succ = self.parent.find_successor()

self.parent.right_child = self

return succ

Reference:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值