最优前缀编码-算法分析与实践作业11

最新推荐文章于 2021-01-14 21:59:03 发布

Po_books

最新推荐文章于 2021-01-14 21:59:03 发布

阅读量788

点赞数

分类专栏：算法分析与实践作业

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43246332/article/details/106445775

版权

算法分析与实践作业专栏收录该内容

17 篇文章 0 订阅

订阅专栏

1.问题

代码（码字）：Q {001,00,010,01}表示字符 a, b, c, d
同一序列：0100001
产生两种译码（产生歧义）：01 00 001; 010 00 01

二元前缀码：任何字符的代码不能作为其他字符代码的前缀—避免了上述歧义产生

利用二元前缀码译码：从第一个字符开始一次读入每个字符（0 或 1），如果发现读到的子串与某个码字相等，就将这个子串译作对应的码字；然后从下一个字符开始继续这个过程，直到读完输入的字符串为止。

二元前缀编码存储：二叉树结构，每个字符作为树叶，对应这个字符的前缀码看作根到这片树叶的一条路径，每个结点通向左二子的边记作 0，通向右儿子

字符集合C={x1,x2,…,xn}
xi的频率是f(xi)
d(xi)表示字符xi二进制位数，也就是xi的码长
二元前缀编码：二叉树
码字：树叶
码字的二进制位数：树叶的深度
存储一个字符所使用的二进制的平均值
B = ∑_(i=1)^n▒〖f(xi)d(xi)〗
最优二元前缀码：每个码字平均使用二进制位数最小的前缀码

问题：给定字符集C={x1,x2,…,xn} 和每个字符的频率f(xi) ，求关于 C 的一个最优前缀码。

2.解析

哈夫曼算法：
第一步：初始化n个单节点的树,并为它们表上字母表中的字符。把每个字符的概率记在树的根中，用来指出树的权重（更一般地来说，树的权重等于树中所有叶子的概率之和）

第二步：重复下面的步骤，知道只剩一棵单独的树。
找到两颗权重最小的树对于权重相同的树，可以任意选择其一。把它们作为新树中的左右子树，并把其权重之和作为新的权重记录在新树的根中。

实例：考虑一个包含5个字符的字符集{A,B,C,D_}，出现概率如下：
字符 A B C D _
出现概率 0.35 0.1 0.2 0.2 0.15

构建哈夫曼树：
如下图所示：

根据给定的出现概率和求得的代码字的长度，在这套编码中，每个字符的平均位长是：
20.35+30.1+20.2+20.2+3*0.15 = 2.25

3. 设计

C++伪代码
使用二叉树的数组结构构建哈夫曼树
动态二维数组存储哈夫曼编码
1、数组haftree初始化，所有数组元素的双亲、左右孩子都置为-1；
2、数组haftree的前n个元素的权值置给定权值；
3、进行n-1次合并
3.1 在二叉树集合中选取两个权值最小的根节点，其下标分别为i1，i2；
3.2 将二叉树i1、i2合并为一棵新的二叉树k。

实验图片~：

4. 分析

O(nlogn)频率排序；for 循环 O(n)，插入操作 O(logn)，算法时间复杂度是 O(nlogn)

5. 源代码地址

https://github.com/Lin02993/Algorithm-Analysis-and-Practice-on-the-job

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
最优前缀编码-算法分析与实践作业11

1.问题代码（码字）：Q {001,00,010,01}表示字符 a, b, c, d同一序列：0100001产生两种译码（产生歧义）：01 00 001; 010 00 01二元前缀码：任何字符的代码不能作为其他字符代码的前缀—避免了上述歧义产生利用二元前缀码译码：从第一个字符开始一次读入每个字符（0 或 1），如果发现读到的子串与某个码字相等，就将这个子串译作对应的码字；然后从下一个字符开始继续这个过程，直到读完输入的字符串为止。二元前缀编码存储：二叉树结构，每个字符作为树叶，对应这个
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。