赫夫曼树又称为最优二叉树
基本的压缩编码方法–赫夫曼编码
路径长度
从树的一个结点到另一个结点之间的分支构成两个结点之间的路径,路径上的分支数目称作路径长度.
树的路径长度 从树根到每一个结点的路径长度之和
赫夫曼算法
- 根据给定的n个权值{w1,w2,,……, wn}构成n棵二叉树的集合F={t1,t2,,,… tn},其中每棵二叉树ti中只有一个带权为wi根结点,其左右子树均为空.
- 在f中选取两棵根结点的权值最小的树作为左右子树构造一棵新的二叉树,且置新的二叉树的根结点的权值为其左右子树上根结点的权值之和.
- 在f中删除这棵树,同时将新得到的二叉树加入f中
- 重复2和3步骤,知道f只含一棵树为止,这棵树就是赫夫曼树.
赫夫曼编码
假设要编码的字符集是{d1,d2,…,dn},各个字符在电文中出现的次数或频率集合为{w1,w2,…,wn},以d1,d2,,…,dn作为叶子结点,以w1,w2,…,wn作为相应叶子结点的权值来构造一棵赫夫曼树.规定赫夫曼树的左分支代表0,右分支代表1,则从根节点到叶子结点所经过的路径分支组成的0和1的序列便为该结点对应字符的编码
优点
随着字符的增加和多字符权重的不同,压缩强度会逐渐变大,压缩会更加明显.