Huffman Tree

最新推荐文章于 2018-04-25 14:44:32 发布

xx_snoopy

最新推荐文章于 2018-04-25 14:44:32 发布

阅读量2.4k

点赞数 1

分类专栏：数据结构 Data Structure 文章标签： tree null object construction class 算法

数据结构 Data Structure 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

什么是Huffman coding?

霍夫曼编码(Huffman Coding)是一种编码方式，是一种用于无损数据压缩算法。1952年，David A. Huffman在麻省理工攻读博士时所发明的，并发表于《一种构建极小多馀编码的方法》（A Method for the Construction of Minimum-Redundancy Codes）一文。

在电脑资料处理中，霍夫曼编码使用变长编码表对源符号（如文件中的一个字母）进行编码，其中变长编码表是通过一种评估来源符号出现机率的方法得到的，出现机率高的字母使用较短的编码，反之出现机率低的则使用较长的编码，这便使编码之后的字符串的平均长度、期望值降低，从而达到无损压缩数据的目的。

例如，在英文中，e的出现机率最高，而z的出现概率则最低。当利用霍夫曼编码对一篇英文进行压缩时，e极有可能用一个位元来表示，而z则可能花去25个位元（不是26）。用普通的表示方法时，每个英文字母均占用一个字节（byte），即8个位元。二者相比，e使用了一般编码的1/8的长度，z则使用了3倍多。倘若我们能实现对于英文中各个字母出现概率的较准确的估算，就可以大幅度提高无损压缩的比例。

霍夫曼树又称最优二叉树，是一种带权路径长度最短的二叉树。所谓树的带权路径长度，就是树中所有的叶结点的权值乘上其到根结点的路径长度（若根结点爲0层，叶结点到根结点的路径长度爲叶结点的层数）。树的路径长度是从树根到每一结点的路径长度之和，记爲WPL=(W1*L1+W2*L2+W3*L3+...+Wn*Ln)，N个权值Wi(i=1,2,...n)构成一棵有N个叶结点的二叉树，相应的叶结点的路径长度爲Li(i=1,2,...n)。可以证明霍夫曼树的WPL是最小的。

算法原理：

    ht首先被提出来，是为了解决这样的问题：

    对于N种数据（比如5种数据：A、B、C、D、E），在出现的频率已
知的情况下（比如分别出现了3、5、2、6、4次），如何用不等长的01
串来分别表示它们，使01串的总长度最短。

    比如原始串：ABADBCBDABEDBDEDCEDE

    对于这个问题，首先得到：任何一个01串都不能是其他01串的前缀
。也就是说，如果用“10”来表示A，那么其他01串就不能以“10”开
头。
    建立01串的步骤如下：

    首先找到出现最少的两个数据（A、C），分别以它们为左右子树，
建立一个二叉树。并将它们出现次数之和作为根节点：

1)

    5   5B  6D  4E
   / /
  3A 2C

    然后从剩下的4个数举重找到两个最小的，做同上的操作，知道只
剩一个数据为止：

2)

    5     9    6D
   / /   / /
  3A 2C 5B 4E

3)

      11      9
     /  /    / /
    5   6D  5B 4E
   / /
  3A 2C

4)
           20
          /  /
       11      9
      /  /    / /
     5   6D  5B 4E
    / /
   3A 2C

    最后从根节点开始，每个左子树填0，右子树填1：

             ROOT
            /    /
           0      1
          / /    / /
         0  1D  0B 1E
        / /
       0A 1C

    这样每个数据对应的01串就是从根节点到数据所在的叶子节点的路
径：

A: 000
B: 10
C: 001
D: 01
E: 11

    这样原始串ABADBCBDABEDBDEDCEDE就成了：

000100000110001100100010110110011101001110111

通过建Huffman Tree的方法对文本编码、译码

有了上面的算法，使用Huffman编码的时候就方便了。比如我们要发送ABC，只要发送00010001就可以了，每个编码直接都不需要用分割符号。因为解析的时候，诸位提取，对照Huffman编码进行解析就可以了。比如先读到0,编码表里没有0，就继续。然后又读到0，还没有找到00，继续读，等再次读到0这个时候就有了一个匹配A，然后继续，就又得到了B和C。

下面是编码的具体实现：
类BaseNode定义了基本的节点：

public class BaseNode { //左节点 public BaseNode Left = null; //右节点 public BaseNode Right = null; //权 public int Number = 0; } 类HuffNode定义了Huffman树的节点 public class HuffNode : BaseNode { //数据 public object Obj = null; //Huffman编码 public string Code; public HuffNode() { } public HuffNode(int number, object obj) { Number = number; Obj = obj; } } 下面是Huffman树的代码： public class Huffman { //mylist作为Huffman树队列 private List<HuffNode> mylist = new List<HuffNode>(); //定义了一个事件，用来处理生成的Huffman编码 public event EventHandler<NodeEventArgs> OnNodeFound; //向队列里面添加节点 public void Add(HuffNode value) { mylist.Add(value); } //找到队列里面最小的Huffman树，返回它，同时从队列里面去掉 private HuffNode min() { HuffNode anode; if (mylist.Count > 0) { anode = mylist[0]; foreach (HuffNode tempnode in mylist) { if (anode.Number > tempnode.Number) { anode = tempnode; } } mylist.Remove(anode); return anode; } else return null; } //生成Huffman树 public void CreateHuffmanTree() { HuffNode node = null; while (mylist.Count > 1) { HuffNode tempnode = new HuffNode(); //取得两个最小的Huffman子树 tempnode.Left = min(); tempnode.Right = min(); tempnode.Number = tempnode.Left.Number + tempnode.Right.Number; mylist.Add(tempnode); } if (mylist.Count > 0) node = mylist[0]; //创建Huffman编码 if (node != null) { StringBuilder sb = new StringBuilder(); Stack<HuffNode> stack = new Stack<HuffNode>(); //指向树根 HuffNode pNow = node; while (null != pNow) { //如果有左子树，就进入 if (null != pNow.Left) { //保存当前节点 stack.Push(pNow); //进入左子树 sb.Append(0); pNow = pNow.Left as HuffNode; pNow.Code = sb.ToString(); } else { //没有左子树，判断右子树 if (null != pNow.Right) { //进入右子树 sb.Append(1); pNow = pNow.Right as HuffNode; pNow.Code = sb.ToString(); } else { //是叶子，响应自定义事件，输出Huffman编码 NodeEventArgs args = new NodeEventArgs(); args.Node = pNow; if (OnNodeFound != null) OnNodeFound(this, args); //如果堆栈为空，就退出 if (stack.Count == 0) break; else { pNow = stack.Pop(); sb.Remove(0, sb.Length); sb.Append(pNow.Code); //进入这个节点的右子树 pNow = pNow.Right as HuffNode; sb.Append(1); pNow.Code = sb.ToString(); //如果右子树为空，并且堆栈不空，就继续 while (null == pNow && stack.Count != 0) { pNow = stack.Pop(); pNow = pNow.Right as HuffNode; } sb.Remove(0, sb.Length); if (pNow != null) sb.Append(pNow.Code); } } } } } } } 自定义事件参数NodeEventArgs的定义 public class NodeEventArgs : EventArgs { public BaseNode Node; } 测试和使用： private Huffman huffman = new Huffman(); private void btnHuffman_Click(object sender, EventArgs e) { //添加节点 huffman.Add(new HuffNode(120, 'e')); huffman.Add(new HuffNode(90, 't')); huffman.Add(new HuffNode(80, 'a')); huffman.Add(new HuffNode(80, 'i')); huffman.Add(new HuffNode(80, 'n')); huffman.Add(new HuffNode(80, 'o')); huffman.Add(new HuffNode(80, 's')); huffman.Add(new HuffNode(64, 'h')); huffman.Add(new HuffNode(62, 'r')); huffman.Add(new HuffNode(44, 'd')); huffman.Add(new HuffNode(40, 'l')); huffman.Add(new HuffNode(34, 'u')); huffman.Add(new HuffNode(30, 'c')); huffman.Add(new HuffNode(30, 'm')); huffman.Add(new HuffNode(25, 'f')); huffman.Add(new HuffNode(20, 'w')); huffman.Add(new HuffNode(20, 'y')); huffman.Add(new HuffNode(17, 'g')); huffman.Add(new HuffNode(17, 'p')); huffman.Add(new HuffNode(16, 'b')); huffman.Add(new HuffNode(12, 'v')); huffman.Add(new HuffNode(8, 'k')); huffman.Add(new HuffNode(5, 'q')); huffman.Add(new HuffNode(4, 'j')); huffman.Add(new HuffNode(4, 'x')); huffman.Add(new HuffNode(2, 'z')); //注册事件，当生成一个Huffman编码的时候，就输出编码值 huffman.OnNodeFound += new EventHandler<NodeEventArgs>(huffman_OnNodeFound); //生成Huffman树 huffman.CreateHuffmanTree(); } void huffman_OnNodeFound(object sender, NodeEventArgs e) { //输出Huffman编码 HuffNode node = e.Node as HuffNode; //如果Obj为空，说明这个节点没有Huffman编码，不进行处理 if (node.Obj != null) System.Console.WriteLine("char:{0} code:{1}",node.Obj.ToString(),node.Code); }

部分内容转自 http://blog.csdn.net/schumyxp/archive/2008/04/23/2317183.aspx