树--哈夫曼树和哈夫曼编码

一、在通讯领域中信息处理的方式

(1)定长编码

我们要传输一条数据:

i like like like java do you like a java //共40个字符

通过ASCII码将其转化为对应的二进制形式:

http://tool.alixixi.com/ascii2/

按照二进制来传递数据,总长度为359(包括空格)。

通常我们不会这么去做,主要是因为我们要传输的数据太长了,很不划算。

(2)变长编码

我们要传输一条数据:

i like like like java do you like a java //共40个字符

统计各个字符出现的次数:

d:1 , y:1 , u:1 , j:2 , v:2 , o:2 , l:4 , k:4 , e:4 , i:5 , a:5 , :9

进行编码格式转化:

0 = 

1 = a

10 = i

11 = e

100 = k

101 = l

110 = o

111 = v

1000 = j

1001 = u

1010 = y

1011 = d

说明:按照各个字符出现的次数进行编码,原则是出现次数越多,则编码越小,比如空格出现了9次,编码为0,其他依次类推。

说明:按照各个字符出现的次数进行编码,原则是出现次数越多,则编码越小,比如空格出现了9次,编码为0,其他依次类推。

按照上边给各个字符规定的编码,则我们在传输 i like like like java do you like a java 数据时,编码是10010110100....

注意:当我们以这样的形式发送数据的时候,接收方接受到数据后并不能很好的识别我们这个编码。比如 i 是 10,k 是 100。

我们读取到前边的 100 的时候可以认为是 10 和 0 也可是100存在歧义。

二、哈夫曼树

(1) 哈夫曼树的几个重要概念

1.路径和路径长度:在一颗树中,从一个节点往下可以到达的孩子或孙子节点之间的通路,称之为路径。

通路当中分支的数目称为路径的长度。

若规定根节点的层数为1,则从根节点到第L层节点的长度为 L-1。

2.节点的权:若树中节点赋给一个有着某种意义的数值,则这个数值称为这个节点的权。

3.带权路径长度 : 从根节点到该节点之间的路径长度与该节点的权的乘积。

4.树的权路径长度 :树的带权路径长度为所有叶子节点的带权路径长度之和,记为WPL,权值越大的节点离跟节点越近的二叉树是最优二叉树。

5.WPL最小的就是哈夫曼树。

(2)哈夫曼树的构建过程

1.将待构建哈夫曼树的节点从小到大进行排序,将每个数据都看作一个节点, 每个节点都构建一颗简单的二叉树。

2.取出根节点权值最小的两颗二叉树。

3.组成一颗新的二叉树,该新的二叉树的根节点的权值是前两颗二叉树跟节点权值的和。

4.在将这个二叉树,以根节点的权值大小再次进行排序,不断的重复1-2-3-4的步骤,直到数列种 所有的数据都被处理,就得到了一颗哈夫曼树。

有如下数列将其构建成哈夫曼树

13 ,7 ,8 ,3 ,29 ,6 ,1

1.创建节点

2.构建哈夫曼树

三、数据压缩构建哈夫曼树的思路

第一步:传输字符串。

i like like like java do you like a java //共40个字符

第二步:统计各个字符出现的次数。

d:1 , y:1 , u:1 , j:2 , v:2 , o:2 , l:4 , k:4 , e:4 , i:5 , a:5 , :9

第三步:按照上面字符出现的次数构建一颗哈夫曼树,次数作为权值。

第四步:根据赫夫曼编码给各个字符,规定编码,向左的路径为0向右的路径为1,编码如下

o:1000

u:10010

d:100110

y:100111

i:101

a:110

k:1110

e:1111

j:0000

v:0001

i:001

 :01

在这里我们会发现,每一个字符的编码都不会是另一个编码的前缀。比如 01,没有任何一个字符的编码前缀是01。

第五步:按照上边的哈夫曼编码,我们的“i like like like java do you like a java”字符串对应的编码为

10101001101111011110100110111101111010011011110111101000011000011100110011110000110 01111000100100100110111101111011100100001100001110

分析:长度为 : 133

说明:

原来长度是 359 , 压缩了 (359-133) / 359 = 62.9%

总结:

此编码满足前缀编码, 即字符的编码都不能是其他字符编码的前缀。不会造成匹配的多义性

哈夫曼编码是无损处理方案。

  • 10
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Beau Wang

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值