java n叉哈夫曼树_N叉哈夫曼树算法研究

最新推荐文章于 2021-05-17 18:24:36 发布

weixin_39826089

最新推荐文章于 2021-05-17 18:24:36 发布

阅读量530

点赞数

文章标签： java n叉哈夫曼树

本文链接：https://blog.csdn.net/weixin_39826089/article/details/114657858

版权

本文探讨了使用N叉哈夫曼树进行字符编码，以达到最小码长的目标。通过举例分析，解释了如何构建二叉和三叉哈夫曼树，强调了树的丰满结构对减少总码长的重要性。同时，介绍了处理非丰满N叉树的方法，通过添加虚节点保证树的结构。最后，给出了实例展示了编码过程及其对应的编码结果。

摘要由CSDN通过智能技术生成

题目的阐述：

以Ｎ进制编码方式对一个英文字串中的字符进行编码，每个不同的字符其编码不同．使得由新的编码替代原串后总码长最小，且输入０，１，２，．．．，Ｎ－１构成的数字串后，依照该编码方式可以正确的对译出唯一的英文原串．

如：　Ｎ＝３　英文原串为　ＡＢＢＣＢＡＤＤＡＣＥ

其对应的一种编码方式为

Ａ：００

Ｂ：０１

Ｃ：０２０

Ｄ：０２１

Ｅ：０２２

原串对译后的编码为０００１０１０２００１０００２１０２１０００２００２２

其码长为２７

若输入编码串　　　　０１０２００２２００

则对应的英文原串为　ＢＣＥＡ

分　析：

假设英文原串中的字符存放于字符集Ｓ中，‖Ｓ‖＝　Ｘ，每个字符在字串中出现的概率为Ｗ［ｉ］，Ｌ［ｉ］为字符ｉ的编码长．

依题意得，对Ｓ集合中的不同字符进行Ｎ进制编码后要求

１)新字串的码长最短

ＷＰＬ＝∑Ｗ［ｉ］＊Ｌ［ｉ］ (ｉ∈１．．Ｘ)

使得在ＷＰＬ是所有编码方式中的最小值

２)编码无二义性

任意一字符编码都不为其它字符编码的前缀

此题以哈夫曼树来解答是非常适宜的．Ｎ为此哈夫曼树的分叉数，Ｓ字符集里的元素即为此

Ｎ叉哈夫曼树的叶子，概率Ｗ［ｉ］即为叶子结点的权重，从根结点到各叶子结点的路径长即为该叶子结点的编码长Ｌ［ｉ］．由哈夫曼树的思想可以知道哈夫曼树的建立是一步到位的贪心法，即权重越大的结点越靠近该树的根，这样，出现频率越大的字符其编码就越短．

但具体应该怎样建立起此Ｎ叉哈夫曼树呢？我们首先以Ｎ＝２为例　：

Ｓ＝｛Ａ，Ｂ，Ｃ，Ｄ｝

Ｗ＝［３，１，２，１］

首先从Ｗ中选出两个最小权，１，１，将其删去，并以２(即１＋１)替代

Ｗ＝［３，２，２］；

再从新的Ｗ中取出两个最小权，２，２，将其删去，并以４(即２＋２)替代

Ｗ＝［３，４］；

依此类推，直到Ｗ中只一个值时合并结束，此时　Ｗ＝［７］

以上两两合并的过程即为二叉哈夫曼树的建立过程，每一次的合并即是将两棵子树归于一个根结点下，于是可以建立二叉树如下：

０å　　æ１

m　　　m

Ａ　　０å　　æ１

m　　　　m

Ｃ　　０å　　æ１

m　　　　　m

Ｂ　　　　　　Ｄ

ＭＩＮ－ＷＰＬ＝３＊１＋１＊３＋２＊２＋１＊３＝１３

从某一根结点出发走向其左子树标记为０，走向其右子树标记为１，则可以得到以下编码

Ａ，Ｂ，Ｃ，Ｄ对应的编码为

Ａ：０

Ｂ：１１０

Ｃ：１０

Ｄ：１１１

Ｎ＝３时又是怎样一种情况呢？

设　Ｓ＝｛Ａ，Ｂ，Ｃ，Ｄ，Ｅ｝

Ｗ＝［７，４，２，５，３｝

则按权重排序可得

Ｓ＝｛Ｄ，Ｂ，Ｅ，Ｃ，Ａ｝

Ｗ＝［７，５，４，３，２］

那么此哈夫曼树的树形应为怎样呢？　　是以下的左图，还是右图，或是两者均不是

m　　　　　　　　　　　　　　　　　　　m

å　　â　　　æ　　　　　　　　　　　　　　　å　æ

m　　　m　　　l　　　　　　　　　　　　　　l　　m

å　æ　　å　æ　　Ｃ　　　　　　　　　　　　　　　Ａ　å　æ

l　　l　l　　l　　　　　　　　　　　　　　　　　　l　　m

Ａ　　Ｄ　Ｂ　　Ｅ　　　　　　　　　　　　　　　　　　Ｄ　å　æ

l　　　m

Ｂ　　å　æ

l　l

Ｅ　Ｃ

显然，要带权路径长ＷＰＬ最短，那么，此树的高度就应尽可能的小，由此可知将此树建成

丰满Ｎ叉树是最合理的，于是我们尽量使树每一层都为Ｎ个分枝．

对于这道题的情况，我们具体来分析．

按照哈夫曼树的思想，首先从Ｗ中取出权最小的三个值，即２，３，４，并以９(２＋３＋４)来代替，得到新的Ｗ＝［９，７，５］；再将这三个值合并成９＋７＋５＝２１这个结点．于是得到三叉哈夫曼树如下：

å　　â　　æ

l　　　l　　　m

Ｄ　　　Ｂ　å　â　æ

l　l　l

Ｅ　Ｃ　Ａ

ＷＰＬ＝１＊７＋１＊５＋２＊２＋２＊３＋２＊４＝３０

以０．．Ｎ－１依次标记每个根结点的Ｎ个分枝，则可以得到每个字符相对应的编码：

Ａ：２２

Ｂ：１

Ｃ：２１

Ｄ：０

Ｅ：２０

我们发现对于这种情况恰巧每层均为Ｎ个分枝，但事实上并非所有的Ｎ叉哈夫曼树都可得到每层Ｎ个分枝．例于当Ｎ＝３，‖Ｓ‖＝６时就不可能构成一棵每层都为三个分枝的三叉树．如何来处理这种情况呢？

最简单的处理方式就是添加若干出现概率为０的空字符填补在Ｎ叉树的最下一层，这些权为０的虚结点并无实际意义但却非常方全便于这棵Ｎ叉树的建立．空字符的添加个数ａｄｄ的计算如下：

Ｙ＝‖Ｓ‖　ｍｏｄ　(ｎ－１)

ａｄｄ＝０　　　(Ｙ＝１)

ａｄｄ＝１　　　(Ｙ＝０)

ａｄｄ＝Ｎ－Ｙ　(Ｙ＞１)

虚结点的加入使得权重最小的Ｎ－ａｄｄ个字符构成了距根结点最远的分枝，使其它字符构成的Ｎ叉树保持了丰满的Ｎ叉结构．

例：　Ｎ＝３

Ｓ＝｛Ａ，Ｂ，Ｃ，Ｄ，Ｅ，Ｆ｝

Ｗ＝［１，２，３，４，５，６｝

则　ｙ：＝６　ｍｏｄ　(３－１)＝０

ａｄｄ＝１

于是构成Ｎ叉树如下：　为虚结点

å　　â　　æ

l　　　l　　　　m

Ｆ　　　Ｅ　å　　â　　æ

l　　l　　　m

Ｄ　　Ｃ　å　â　æ

Ｂ　Ａ　

ＷＰＬ＝１＊６＋１＊５＋２＊４＋２＊３＋３＊２＋３＊１＋３＊０＝３３

对应编码为：

Ａ：２２１

Ｂ：２２０

Ｃ：２１

Ｄ：２０

Ｅ：１

Ｆ：０

weixin_39826089

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫