哈夫曼树和哈夫曼编码
1.哈夫曼树的定义:
在许多实际应用之中,树中节点常常被赋予一个表示某种意义的数值,称为该结点的权。从树根结点到任意结点的路径长度(经过的边数)与该结点上权值的乘积,称为该结点的带权路径长度。树中所有带权路径长度之和称为该树的带权路径长度,记为
WPL =∑_(i=1)^n▒Wili
式中,wi是第i个叶结点所带的权值,li是该叶结点到根结点的路径长度。
在含有n个带权叶子结点的二叉树中,其中带权路径长度(WPL)最小的二叉树称为哈夫曼树,也称为最优二叉树。
2.哈夫曼树的构造:
- 给定n个权值分别为w1,w2,……,w¬n的结点,通过哈夫曼算法可以构造出最优二叉树,算法描述如下:
- 将这n个结点分别作为n棵树仅一个结点的二叉树,构成森林F。
- 构造一个新结点,从F中选取两棵根结点权值最小的树作为新结点的左右子树,并且将新节点的权值置为左右子树上根结点的权值之和。
- 从F中删除刚才选取的两棵树,同时将新得到的树加入F中。
- 重复步骤2,3直至F中只剩下一棵树为止。
从上述构造过程中可以看出哈夫曼树具有如下特点:
1.每个初始结点最终都成为叶结点,且权值越小的结点到根结点的路径长度越大。
2.构造过程中共新建了n-1个结点(双亲支结点),因此哈夫曼树中结点总数为2n-1。
3.每次构造都选择2棵树作为新结点的孩子,因此哈夫曼树中不存在度为1的结点。
3.哈弗曼编码
对于待处理的一个字符串序列,若对每个字符用同样的长度二进制位表示,则这种编码方式位固定长度编码。若允许对不同字符用不等长的二进制位表示,则这种方式成为可变长编码。可编程编码比固定编码好得多。其特点是对频率高的字符赋以短编码,而对频率低的字符赋以较长的编码,从而使字符平均长度减短,起到压缩数据的效果。哈夫曼编码是一种广泛应用而且非常有效的数据压缩码。 若没有一个编码是另一个编码的前缀,则称这样的编码为前缀编码。由哈夫曼树得到哈夫曼编码是很自然的过程。首先,将每个字符当做独立的结点,其权值为它们出现的频度,构造出对应的哈夫曼树。显然,所有字符结点都出现在叶结点中。我们可将字符的编码解释为从根至该字符的路径上标记的边标记的序列,其中边标记为0表示“转向左孩子”,标记为1表示“转向右孩子”。
/*算法中用到的类Huffman定义如下:*/
template<class Type>
class Huffman{
friend BinaryTree<int>HuffmanTree)(Type [],int);
public:
operator Type()const{ return weight;}
private:
BinaryTree<int>tree;
Type weight;
};
//算法HuffmanTree描述如下:
template <class Type>
BinaryTree<int>HuffmanTree(Type f[],int n){
Huffman<Type> *w = new Huffman<Type>[n+1];
BinaryTree<int> z,zero;
for9(int i=1; i<=n;i++){
z.MakeTree(i,zero,zero)
w[i].weight=f[i];
w[i].tree=z;
}
//建立优先队列
MinHeap<Huffman<Type>>Q(1);
Q.Initialize(w,n,n);
//反复合并最小频率树
Huffman<Type>x,y;
for(int i=1;i<n;i++){
Q.DeleteMin(x);
Q.DeleteMin(y);
z.MakeTree(0,x.tree,y.tree);
x.weight+=y.weight;
x.tree=z;
Q.Insert(x);
}
Q.DeleteMin(x);
Q.Deactivate();
delete []w;
return x.tree;
}
***附:***暂时未能用完整代码实现哈夫曼编码
河南师范大学计算机科学与技术专业在读本科生;微信公众号:人生梦想实现家