【数据结构】6.6 赫夫曼树及其应用

目录

6.6.1、最优二叉树(赫夫曼树)

.构造赫夫曼树(赫夫曼算法)

6.6.2、赫夫曼编码

(2)赫夫曼编码的方法

赫夫曼树和赫夫曼编码的存储表示

 例4:假设二叉树T中至多有一个结点的数据域值为x,试编写算法拆去以该结点为根的子树, 使原树中分成两棵子树。


6.6.1、最优二叉树(赫夫曼树)

1、几个概念

树的路径长度:从根结点到所有结 点的路径长度之和;

结点的带权路径长度:结点到根结 点的长度与权重的乘积;

路径长度:路径上 边(分支)的个 数;

树的带权路径长度:所有叶结点的 带权路径长度之和。

 

 3×2+3×2+2×3+3×2+3×2+2×3=36

2、赫夫曼树(最优二叉树)是具有 最小带权路径长度的二叉树。

.构造赫夫曼树(赫夫曼算法)

(1)构造赫夫曼树的基本思想

 假设由权值分别为w1w2 wn的 n个叶子结点组成一棵二叉树。要想使WPL

值最小,必须使权值大的叶子结点尽量靠近 根结点,而使权值小的叶子结点尽量远离根

结点。

(2)构造赫夫曼树的例子

n个叶结点,按上述构造方法,树中共有多少个结点?

2n-1个

(3)构造赫夫曼树的算法

        a. 给定的n个权值{w1,w2,……,wn}构成具有n棵二叉树的 森林F={T1T2……,Tn},其中每棵二叉树Ti只有一个 权为wi的结点(根结点,无左右子树)

        b.在F中选取两棵根结点的权值最小的树作为左右子树构 造一棵新的二叉树,且置新的二叉树的根结点的权值为 其左、右子树上根结点的权值之和。

        c.在集合F中删除先前所选取的两棵二叉树,并把新构成 的二叉树加入到F中;

        d.重复执行bc两步,直到F中只剩下一棵二叉树。

(4)构造赫夫曼树 的一种存储结 构和生成过程

6.6.2、赫夫曼编码

1.问题的提出

(1)编码的长短(等长编码)

在英文通信中,计算机经常需要将字符转化为二进制编 码。

例:设电文中只用了A,B,C,D四个字母;

采用二位编码为00011011

电文为“ACDACAB”的二进制代码串:00101100100001

总长14位,对方接收后可按每二位对照字符进行译码。

(2)不等长编码:

在实际应用中,由于字符出现的频率不同,可采用不 等长编码降低编码的长度;

在“ACDACAB”AC出现的次数较多,A,C编码要

短:例如0(A),00(B),1(C),01(D),电文的二进制代码串:

010101000,总长为9位。

(3)译码唯一性

采用不等长编码出现的问题,译码唯一性。

采用不等长编码,要保证译码唯一性,必须采用前缀编码。 

(4)前缀编码。

要求任一个字符的编码都不是另一个字符的编码的前缀,这种编码称做前缀编码。

A,B,C,D的编码为:000101

A,B,C,D的编码为:00011011

A,B,C,D的编码为:010110111

2.电文长度与哈夫曼树。

假设组成电文的字符集合是D = { d1, d2, ... dn }, 每个字符出现的次数是c1, c2, ..., cn, di对应的

编码长度是li

通常我们用di出现的概率来代替出现的次数,

di出现的概率为wi

(1)赫夫曼编码举例

利用赫夫曼树对句子“it is a tree”进行编码。

句子中有字符:{it,□,sare}共七个字符。

七个字符的权值分别为:{2231112}

编码过程

见图

编码结果:

i t i s a t r e e

011 10 11 011 001 11 0000 11 10 0001 010 010

赫夫曼编码——利用赫夫曼树得到的前缀编码。

(2)赫夫曼编码的方法

 a. 首先构造出赫夫曼树:

b. 设计赫夫曼编码:在有了赫夫曼树之后, 将树中每个结点的左分支用“0”代表,右分支用

1”代表。则从根结点到叶结点之间,沿途路径 上的分支组成的“0”或“1”代码串就是该叶子结

点所代表的字符编码,称为赫夫曼编码。

(3)赫夫曼编码的特点

 由赫夫曼树的构成可知权大的结点靠近根结 点,其路径短。

 电文的总长度最短。

         赫夫曼树是带权路径长度最短的二叉树。

 前缀码

         赫夫曼编码对应终点为叶子的路径,相互 不完全重叠。

1号

1号是6号的右孩子,1号哈夫曼编码的最后一位是1

再找6号的父节点是7号

6号是7号的右孩子,倒数第二位是1

再找7号的父节点是8号

7号是8号的右孩子,倒数第3位是1

再找8号的父节点是9号

8号是9号的右孩子,倒数第4位是1

再找9号的父节点是0号根节点

终止

临时存储空间1111 \0

根据长度申请存储空间

字符指针数组指向每一个编码

赫夫曼树和赫夫曼编码的存储表示

typedef struct
{
    unsigned int weight;//权重 
    unsigned int parent,lchild,rchild;
}HTNode,*HuffmanTree;

typedef char**HuffmanCode;
//树,编码,权重数组 ,叶子结点个数
void HuffmanCoding(HuffmanTree &HT,HuffmanCode &HC,float *w,int n)//
{
    //构造哈夫曼树
    if(n<=1 )return;
    m = 2*n-1; //树的结点个数
    //0号空间不用 从1开始 
    HT=(HuffmanTree)malloc((m+1)*sizeof(HTNode));//存储空间
	//初始化 叶子结点 
	for(p=HT,i=1 ; i<=n;i++,p++,w++)
	{
		*p={*w,0,0,0};//赋值 权重消息 父节点和左右孩子位置赋值为0 
	} 
	//
	for( ;i<=m;i++,p++) 
	{
		*p={0,0,0,0};
	}
	//构造哈夫曼树
	for(i=n+1;i<=m;i++)
	{
		//选择的时候会把父节点考虑进去 所以结果正确 
		select(HT,i-1,s1,s2);//从1到i-1 也就是之前的结点中找两个最小值位置
		HT[s1].parent=i;
		HT[s2].parent=i;
		HT[i].lchild=s1;
		HT[i].rchild=s2;
		HT[i].weight=HT[s1].weight+HT[s2].weight; 
	}//生成哈夫曼树
	
	///哈夫曼编码
	HC=(HuffmanCode)malloc((n+1)*sizeof(char*));//0号不用
	cd=(char*)malloc(n*sizeof(char));
	//临时,存放每一次叶子结点的哈夫曼编码的n-1位+最后的'\0' 
	cd[n-1]='\0';//编码结束符
	for(i=1;i<=n;i++)//前n个结点
	{
		start=n-1;//反着求,开始是n-1,编码结束符位置
		for(c=i,f=HT[i].parent ; f!=0 ; c=f,f=HT[f].parent )
		{//直到找到根节点 
			if(HT[f].lchild==c)//左孩子为0
				cd[--start]='0';
			else
				cd[--start]='1'; 
		} 
		HC[i]=(char*)malloc((n-start)*sizeof(char));
		strcpy(HC[i] , &cd[start] );
	}
	free(cd);//释放临时工作空间 
}//HuffmanCoding

void select(HuffmanTree &HT,int pos,int &s1,int &s2)
{
	int min;
	int i;
	for(i=1;i<=pos;i++)//找第一个基准值 
	{
		if(HT[i].parent==0)
		//从parent为0也就是没有被选过得结点中选一个开始比较 
		{
			min=i;//
			break;
		}
	}
	for(int i=1;i<=pos;i++)
	{
		if(HT[i].parent==0)//未选择
		{
			if(HT[i].weight < HT[min].weight )
			{
				min=i;
			}
		 } 
	} 
	s1=min;
	//第二个最小值
	for(int i=1;i<=pos;i++)
	{
		if(HT[i].parent==0 && i !=s1)
		{
			min=i;
			break;
		}
	} 
	for(int i=1;i<=pos;i++)
	{
		if(HT[i].parent==0 && i!=s1)
		{
			if(HT[i].weight < HT[min].weight )
				min=i;
		}
	}
	s2=min;
}


对同一段电文进行哈夫曼编码,下面哪个表述是正确的?

构造的哈夫曼树是一样的。 (可以作为左右子树,权值一样的结点)

构造的哈夫曼树可能不同,但同一个字符哈夫曼编码是 一样的。

构造的哈夫曼树可能不同,但同一个字符的编码长度是 一样的。

总的字符编码长度是一样的。


 例4:假设二叉树T中至多有一个结点的数据域值为x,试编写算法拆去以该结点为根的子树, 使原树中分成两棵子树。

例题例题

采用前序递归算法:

1、如果t->lchild->data==x; //t的左孩子是x 

p=t->lchild;t->lchild=null;

返回p;

如果t->rchild->data==x;

p=t->rchild;t->rchild=null;

返回p;

2、否则在左子树中查找;

3、如果在左子树中没有找到,则在右子树中查找。

4、如果树中没等于x的结点,返回空值。

 

Bitree p=NULL;//全局变量;新树的根结点。

void dissect(Bitree t,int x)

{

        if(t!=NULL && t->lchild!=NULL ) //有左孩子

        {

                if(t->lchild->data==x) //找到结点

                {

                        p=t->lchild;

                        t->lchild=NULL;

                }

        }

        else if(t!=NULL && t->rchild!=NULL )  //有右孩子

        {

                if(t->rchild->data==x)

                {

                        p=t->rchild;

                        t->rchild=NULL;

                }

        }

        if(t!=NULL && !p) dissect(t->lchild,x);  //左子树中查找

        if(t!=NULL && !p) dissect(t->rchild,x);  //右子树中查找

        

}

 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据结构》(C语言版)是为“数据结构”课程编写的教材,也可作为学习数据结构及其算法的C程序设计的参数教材。学了数据结构后,许多以前写起来很繁杂的代码现在写起来很清晰明了. 本书的前半部分从抽象数据类型的角度讨论各种基本类型的数据结构及其应用;后半部分主要讨论查找和排序的各种实现方法及其综合分析比较。 全书采用类C语言作为数据结构和算法的描述语言。 本书概念表述严谨,逻辑推理严密,语言精炼,用词达意,并有配套出版的《数据结构题集》(C语言版),便于教学,又便于自学。 本书后附有光盘。光盘内容可在DOS环境下运行的以类C语言描述的“数据结构算法动态模拟辅助教学软件,以及在Windows环境下运行的以类PASCAL或类C两种语言描述的“数据结构算法动态模拟辅助教学软件”。内附 数据结构算法实现(严蔚敏版配套实现程序) 目录: 第1章 绪论 1.1 什么是数据结构 1.2 基本概念和术语 1.3 抽象数据类型的表现与实现 1.4 算法和算法分析 第2章 线性表 2.1 线性表的类型定义 2.2 线性表的顺序表示和实现 2.3 线性表的链式表示和实现 2.4 一元多项式的表示及相加 第3章 栈和队列 3.1 栈 3.2 栈的应有和举例 3.3 栈与递归的实现 3.4 队列 3.5 离散事件模拟 第4章 串 4.1 串类型的定义 4.2 串的表示和实现 4.3 串的模式匹配算法 4.4 串操作应用举例 第5章 数组和广义表 5.1 数组的定义 5.2 数组的顺序表现和实现 5.3 矩阵的压缩存储 5.4 广义表的定义 5.5 广义表的储存结构 5.6 m元多项式的表示 5.7 广义表的递归算法第6章 树和二叉树 6.1 树的定义和基本术语 6.2 二叉树 6.2.1 二叉树的定义 6.2.2 二叉树的性质 6.2.3 二叉树的存储结构 6.3 遍历二叉树和线索二叉树 6.3.1 遍历二叉树 6.3.2 线索二叉树 6.4 树和森林 6.4.1 树的存储结构 6.4.2 森林与二叉树的转换 6.4.3 树和森林的遍历 6.5 树与等价问题 6.6 赫夫曼树及其应用 6.6.1 最优二叉树(赫夫曼树) 6.6.2 赫夫曼编码 6.7 回溯法与树的遍历 6.8 树的计数 第7章 图 7.1 图的定义和术语 7.2 图的存储结构 7.2.1 数组表示法 7.2.2 邻接表 7.2.3 十字链表 7.2.4 邻接多重表 7.3 图的遍历 7.3.1 深度优先搜索 7.3.2 广度优先搜索 7.4 图的连通性问题 7.4.1 无向图的连通分量和生成树 7.4.2 有向图的强连通分量 7.4.3 最小生成树 7.4.4 关节点和重连通分量 7.5 有向无环图及其应用 7.5.1 拓扑排序 7.5.2 关键路径 7.6 最短路径 7.6.1 从某个源点到其余各顶点的最短路径 7.6.2 每一对顶点之间的最短路径 第8章 动态存储管理 8.1 概述 8.2 可利用空间表及分配方法 8.3 边界标识法 8.3.1 可利用空间表的结构 8.3.2 分配算法 8.3.3 回收算法 8.4 伙伴系统 8.4.1 可利用空间表的结构 8.4.2 分配算法 8.4.3 回收算法 8.5 无用单元收集 8.6 存储紧缩 第9章 查找 9.1 静态查找表 9.1.1 顺序表的查找 9.1.2 有序表的查找 9.1.3 静态树表的查找 9.1.4 索引顺序表的查找 9.2 动态查找表 9.2.1 二叉排序树和平衡二叉树 9.2.2 B树和B+树 9.2.3 键树 9.3 哈希表 9.3.1 什么是哈希表 9.3.2 哈希函数的构造方法 9.3.3 处理冲突的方法 9.3.4 哈希表的查找及其分析 第10章 内部排序 10.1 概述 10.2 插入排序 10.2.1 直接插入排序 10.2.2 其他插入排序 10.2.3 希尔排序 10.3 快速排序 10.4 选择排序 10.4.1 简单选择排序 10.4.2 树形选择排序 10.4.3 堆排序 10.5 归并排序 10.6 基数排序 10.6.1 多关键字的排序 10.6.2 链式基数排序 10.7 各种内部排序方法的比较讨论 第11章 外部排序 11.1 外存信息的存取 11.2 外部排序的方法 11.3 多路平衡归并的实现 11.4 置换一选择排序 11.5 最佳归并树 第12章 文件 12.1 有关文件的基本概念 12.2 顺序文件 12.3 索引文件 12.4 ISAM文件和VSAM文件 12.4.1 ISAM文件 12.4.2 VSAM文件 12.5 直接存取文件(散列文件) 12.6 多关键字文件 12.6.1 多重表文件 12.6.2 倒排文件 附录A 名词索引 附录B 函数索引 参考书目

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值