一.实现效果
【压缩】
huffman.gif
【解压缩】
huffman2.gif
【压缩效率】
EAA}7T{AT2@L77{25MI}_YD.png
二.哈夫曼算法
哈夫曼又称霍夫曼编码,是一种编码方式,哈夫曼编码是可变字长编码(VLC)的一种。Huffman于1952年提出一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长度最短的码字,有时称之为最佳编码,一般就叫做Huffman编码(有时也称为霍夫曼编码)。
三.哈夫曼树
【1. 哈夫曼树也称最优二叉树】
叶子节点的权值是对叶子节点赋予的一个有意义的数值量。
设二叉树具有 n 个带权值的叶子结点,从根节点到各个叶子结点的路径长度与相应叶子结点权值的乘积之和叫做二叉树的带权路径长度。
给定一组具有确定权值的叶子结点,可以构造处不同的二叉树,将其中带权路径长度最小的二叉树称为哈夫曼树。
【2. 基本思想】
初始化:由给定的 n 个权值 {ω1,ω2,⋯,ωn}构造 n 棵只有一个根节点的二叉树,从而得到一个二叉树集合F={T1,T2,⋯,Tn}。
选取与合并:在F中选取根节点的权值最小的两颗二叉树分别作为左右子树构造一棵新的二叉树(一般情况下将权值大的结点作为右子树。),这棵新二叉树的根节点的权值为其左、右子树根节点的权值之和。
删除与加入:在F中删除作为左、右子树的两棵二叉树,并将新建立的二叉树加入到F中。
重复上述两个步骤,当集合F中只剩下一棵二叉树时,这棵二叉树便是哈夫曼树。
四.哈夫曼编码
【1. 哈夫曼编码是一种可变字长编码】
如果一组编码中任一编码都不是其他任何一个编码的前缀,我们称这组编码为前缀编码。哈夫曼树可用于构造最短的不等长编码方案。
【2. 算法流程】
规定哈夫曼编码树的作分支代表 0,右分支代表 1,则从根结点到每个叶子结点所经过的路径组成的 0 和 1 的序列便成为该叶子结点对应字符的编码。
解码则是将编码串从左到右逐位判别,直到确定一个字符。
哈夫曼编码树中,树的带权路径长度的含义是各个字符的码长与其出现次数的乘积之和,所以采用哈夫曼树构造的编码是一种能使字符串的编码总长度最短的不等长编码。
五.代码实现
【窗口搭建】
import tkinter
import tkinter.filedialog
from tkinter import *
import tkinter.messagebox
# 压缩大文件实时会出现超出递归深度,故修改限制
sys.setrecursionlimit(1000000)
# 创建住窗口
root = tkinter.Tk()
root.minsize(700,500)
root.title('Iwen-哈夫曼压缩软件')
root['bg'] = '#F2F2F2'
# 声明一个全局变量files
files = ()
# 声明lable的使用变量
filenames = tkinter.StringVar()
textvars = tkinter.StringVar()
.......
# 添加按钮界面
label = tkinter.Label(root,bg = '#F2F2F2')
label.place(width = 700,height = 115)
# 1.添加文件按钮
btnadd = tkinter.Button(root,text = '选择文件&#