编码分为:等长编码和非等长编码。
ACSII和UNICODE是等长编码。等长编码存在局限,就是浪费空间。
霍夫曼编码是一种非等长编码。
霍夫曼编码的过程就是构造霍夫曼树的过程,其相应的算法如下:
(1)有一组需要编码且带有权值的字母,如a(4),b(8),c(1),d(2),e(11)。括号中的数字分别是对应的字母的权值。
(2)选取字母中权值较小的两个c(1),d(2)组成一个新二叉树,其父亲结点的权值为这两个字母权值之和,记为f(3),然后将该结点加入到原字母序列中(不包括已经选择的权值最小的两个字母),则剩下的字母为a(4),b(8),e(11),f(3).
(3)重复进行步骤(2),直到所有字母都加入到二叉树中为止。
如果用0标识左分支,1表示右分支,则得到的编码为a(110),b(10),c(1110),d(111),e(0)。
程序(暂略)
霍夫曼树的解码过程和编码过程正好相反,从根节点出发,逐个读入编码的内容:如果遇见0,则走左子树的根节点,否则走向右节点,一旦到达叶子节点,便译出代码所对应的字符。然后又重新从根节点继续译码,知道二进制编码结束。
程序(暂略)