数据结构之树

最新推荐文章于 2024-01-24 10:49:27 发布

MissAcappella

最新推荐文章于 2024-01-24 10:49:27 发布

阅读量335

点赞数

本文链接：https://blog.csdn.net/MissAcappella/article/details/88650442

版权

1.树
在计算器科学中，树（英语：tree）是一种抽象数据类型（ADT）或是实现这种抽象数据类型的数据结构，用来模拟具有树状结构性质的数据集合。它是由n（n>0）个有限节点组成一个具有层次关系的集合。把它叫做“树”是因为它看起来像一棵倒挂的树，也就是说它是根朝上，而叶朝下的。它具有以下的特点：

①每个节点有零个或多个子节点；
②没有父节点的节点称为根节点；
③每一个非根节点有且只有一个父节点；
④除了根节点外，每个子节点可以分为多个不相交的子树；

在这里插入图片描述
关于树的术语：度，叶子节点，根节点，父节点，子节点，深度，高度。二叉树
二叉树：每个节点最多含有两个子树的树称为二叉树。（我们一般在书中试题中见到的树是二叉树，但并不意味着所有的树都是二叉树。）

在二叉树的概念下又衍生出满二叉树和完全二叉树的概念

满二叉树：除最后一层无任何子节点外，每一层上的所有结点都有两个子结点。也可以这样理解，除叶子结点外的所有结点均有两个子结点。节点数达到最大值，所有叶子结点必须在同一层上
完全二叉树：若设二叉树的深度为h，除第 h 层外，其它各层 (1～(h-1)层) 的结点数都达到最大个数，第h层所有的结点都连续集中在最左边，这就是完全二叉树。
算法实现
二叉树：
private static class TreeNode {
int val;
TreeNode left;
TreeNode right;
TreeNode(int x) { val = x; }
}

二叉树的遍历方式
在这里插入图片描述先序遍历：先根节点->遍历左子树->遍历右子树
中序遍历：遍历左子树->根节点->遍历右子树
后序遍历：遍历左子树->遍历右子树->根节点
深度优先搜索（DFS）与广度优先搜索（BFS）
实现：bfs＝队列，入队列，出队列一次访问一条路径；dfs=栈，压栈，出栈一次访问多条路径（来自知乎）
关系：用DFS解决的问题都可以用BFS解决。DFS易于编写（递归），时间消耗较少但是容易发生爆栈，而BFS可以控制队列的长度。
2.动态查找树
2.1 二叉查找树
二叉查找树是二叉树的衍生概念：
二叉查找树（英语：Binary Search Tree），也称为二叉搜索树、有序二叉树（ordered binary tree）或排序二叉树（sorted binary tree），是指一棵空树或者具有下列性质的二叉树：
1.若任意节点的左子树不空，则左子树上所有节点的值均小于它的根节点的值；
2. 若任意节点的右子树不空，则右子树上所有节点的值均大于它的根节点的值；
3.任意节点的左、右子树也分别为二叉查找树；
4.没有键值相等的节点。
二叉查找树相比于其他数据结构的优势在于查找、插入的时间复杂度较低为 O ( log ⁡ n ) 。二叉查找树是基础性数据结构，用于构建更为抽象的数据结构，如集合、多重集、关联数组等。
2.2 平衡二叉树（AVL树）
平衡二叉树：当且仅当任何节点的两棵子树的高度差不大于1的二叉树；
其中AVL树是最先发明的自平衡二叉查找树，是最原始典型的平衡二叉树。
平衡二叉树是基于二叉查找树的改进。由于在某些极端的情况下（如在插入的序列是有序的时），二叉查找树将退化成近似链或链，此时，其操作的时间复杂度将退化成线性的，即O(n)。所以我们通过自平衡操作（即旋转）构建两个子树高度差不超过1的平衡二叉树。
2.3 红黑树
红黑树也是一种自平衡的二叉查找树。
1.每个结点要么是红的要么是黑的。（红或黑）
2.根结点是黑的。（根黑）
3.每个叶结点（叶结点即指树尾端NIL指针或NULL结点）都是黑的。（叶黑）
4.如果一个结点是红的，那么它的两个儿子都是黑的。（红子黑）
5.对于任意结点而言，其到叶结点树尾端NIL指针的每条路径都包含相同数目的黑结点。（路径下黑相同）
2.4 哈夫曼树（Huffman Tree）
哈夫曼树是一种带权路径长度最短的二叉树，也称为最优二叉树。
一般可以按下面步骤构建：
1，将所有左，右子树都为空的作为根节点。
2，在森林中选出两棵根节点的权值最小的树作为一棵新树的左，右子树，且置新树的附加根节点的权值为其左，右子树上根节点的权值之和。注意，左子树的权值应小于右子树的权值。
3，从森林中删除这两棵树，同时把新树加入到森林中。
4，重复2，3步骤，直到森林中只有一棵树为止，此树便是哈夫曼树。
3.多路查找树
大规模数据存储中，实现索引查询这样一个实际背景下，树节点存储的元素数量是有限的（如果元素数量非常多的话，查找就退化成节点内部的线性查找了），这样导致二叉查找树结构由于树的深度过大而造成磁盘I/O读写过于频繁，进而导致查询效率低下。
3.1 B树
B树（英语：B-tree）是一种自平衡的树，能够保持数据有序。这种数据结构能够让查找数据、顺序访问、插入数据及删除的动作，都在对数时间内完成。B树，概括来说是一个一般化的二叉查找树（binary search tree），可以拥有最多2个子节点。与自平衡二叉查找树不同，B树适用于读写相对大的数据块的存储系统，例如磁盘。
1.根结点至少有两个子女。

2.每个中间节点都包含k-1个元素和k个孩子，其中 m/2 <= k <= m

3.每一个叶子节点都包含k-1个元素，其中 m/2 <= k <= m

4.所有的叶子结点都位于同一层。

5.每个节点中的元素从小到大排列，节点当中k-1个元素正好是k个孩子包含的元素的值域分划。
3.2 B+树
B+ 树是一种树数据结构，通常用于关系型数据库（如Mysql）和操作系统的文件系统中。B+ 树的特点是能够保持数据稳定有序，其插入与修改拥有较稳定的对数时间复杂度。B+ 树元素自底向上插入，这与二叉树恰好相反。
在B树基础上，为叶子结点增加链表指针（B树+叶子有序链表），所有关键字都在叶子结点中出现，非叶子结点作为叶子结点的索引；B+树总是到叶子结点才命中。
b+树的非叶子节点不保存数据，只保存子树的临界值（最大或者最小），所以同样大小的节点，b+树相对于b树能够有更多的分支，使得这棵树更加矮胖，查询时做的IO操作次数也更少。
决策树（Decision Tree）是一种基本的分类与回归方法，当决策树用于分类时称为分类树，用于回归时称为回归树。本文主要讨论决策树中的分类树与回归树的一些基本理论，后续文章会继续讨论决策树的Boosting和Bagging相关方法。

决策树
由结点和有向边组成。结点有两种类型：内部结点和叶结点，其中内部结点表示一个特征或属性，叶结点表示一个类。一般的，一棵决策树包含一个根结点、若干个内部结点和若干个叶结点。叶结点对应于决策结果，其他每个结点则对应于一个属性测试。每个结点包含的样本集合根据属性测试的结果被划分到子结点中，根结点包含样本全集，从根结点到每个叶结点的路径对应了一个判定测试序列。在下图中，圆和方框分别表示内部结点和叶结点。决策树学习的目的是为了产生一棵泛化能力强，即处理未见示例能力强的决策树。
在这里插入图片描述
分类树
分类树是一种描述对实例进行分类的树形结构。在使用分类树进行分类时，从根结点开始，对实例的某一特征进行测试，根据测试结果，将实例分配到其子结点。这时，每一个子结点对应着该特征的一个取值。如此递归地对实例进行测试并分配，直至达到叶结点。最后将实例分到叶结点的类中。

假设给定训练数据集：
D={(x1,y1),(x2,y2),…,(xN,yN)} D={(x_1, y_1), (x_2, y_2), …, (x_N, y_N)}
D={(x
1

,y
1

),(x
2

,y
2

),…,(x
N

,y
N

)}
其中，xi=(x(1)i,x(2)i,…,x(n)i)T, x_i=(x_i^{(1)}, x_i^{(2)}, …, x_i^{(n)})T,x
i

=(x
i
(1)

,x
i
(2)

,…,x
i
(n)

)
T
,为输入实例，即特征向量，n nn为特征个数，i=1，2…，N i=1，2…，Ni=1，2…，N，N NN为样本容量，yi∈{1,2,…,K} y_i \in { 1, 2, …, K}y
i

∈{1,2,…,K}为类标。分类树学习的目标是根据给定的训练数据集构建一个决策树模型，使它能够对实例进行正确的分类。

决策树学习本质上是从训练数据集中归纳出一组分类规则。与训练数据集不相矛盾的决策树（即能对训练数据进行正确分类的决策树）可能有多个，也可能一个也没有。我们需要的是一个与训练数据矛盾较小的决策树，同时具有很好的泛化能力。从另一个角度看，决策树学习是由训练数据集估计条件概率模型。基于特征空间划分的类的条件概率模型有无穷多个，我们选择的条件概率模型应该不仅对训练数据有很好的拟合，而且对未知数据有很好的预测。

决策树学习用损失函数表示这一目标，其损失函数通常是正则化的极大似然函数，决策树学习的策略是以损失函数为目标函数的最小化。当损失函数确定以后，学习问题就变为在损失函数意义下选择最优决策树的问题。因为从所有可能的决策树中选取最优决策树是NP完全问题，所以现实中决策树学习算法通常采用启发式方法，近似求解这一最优化问题。这样得到的决策树是次最优的。
征选择
特征选择在于选取对训练数据具有分类能力的特征。这样可以提高决策树学习的效率。如果利用一个特征进行分类的结果与随机分类的结果没有很大差别，则称这个特征是没有分类能力的。经验上扔掉这样的特征对决策树学习的精度影响不大。比如，我们希望构建一棵决策树来根据不同人的各种属性来预测每个人性别，那么对于属性“头发的长度”可能就要比属性“头发的颜色”所能包含的信息更多。因为一般来说，男生的头发要比女生的头发短，所以我们希望“头发的长度”这个属性处于决策树的上部。随着划分过程不断进行，我们希望决策树的分支结点所包含的样本尽可能属于同一类别，即结点的“纯度”（purity）越来越高。

信息增益
为了便于说明信息增益，先给出熵与条件熵的定义。在信息论与概率统计中，熵（entropy）是表示随机变量不确定性的度量。设X XX是一个取有限个值的离散随机变量，其概率分布为:
P(X=xi)=pi,i=1,2,⋯,n P(X = x_i) = p_i, i = 1, 2, \cdots, n
P(X=x
i

)=p
i

,i=1,2,⋯,n

则随机变量X XX的熵定义为：
H(X)=−∑ni=1pilogpi H(X) = -\sum_{i = 1}^n p_i \log p_i
H(X)=−
i=1
∑
n

p
i

logp
i

在上式中，若pi=0 p_i = 0p
i

=0，则定义pilogpi=0 p_i \log p_i = 0p
i

logp
i

=0。通常，上式中的对数以2 22为底或以e ee为底（自然对数），这时熵的单位分别称作比特（bit）或纳特（nat）.由定义可知，熵只依赖于X XX的分布，而与X XX的取值无关，所以也可将X XX的熵记作H§ H§H§，即:
H§=−∑ni=1pilogpi H§ = -\sum_{i = 1}^n p_i \log p_i
H§=−
i=1
∑
n

p
i

logp
i

由此可见，熵越大，随机变量的不确定性就越大。从熵的定义可验证
0≤H§≤logn 0 \leq H§ \leq \log n
0≤H§≤logn

当随机变量只取两个值，例如1，0时，即X XX的分布为:
P(X=1)=p,P(X=0)=1−p,0≤p≤1 P(X = 1) = p,\quad P(X = 0) = 1-p, \quad 0≤p≤1
P(X=1)=p,P(X=0)=1−p,0≤p≤1
其熵为：
H§=−plog2p−(1−p)log2(1−p) H§ = -p \log_2 p - (1 - p)\log_2 (1 - p)
H§=−plog
2
p−(1−p)log
2
(1−p)

这时，熵H§ H§H§随概率p pp变化的曲线如下图所示（单位为比特）：