哈弗曼树与哈弗曼编码（实现）

最新推荐文章于 2023-07-14 20:17:11 发布

吃瓜太狼

最新推荐文章于 2023-07-14 20:17:11 发布

阅读量744

点赞数 1

本文链接：https://blog.csdn.net/qq_41722524/article/details/100109732

版权

`哈弗曼树与哈弗曼编码`

`历史背景`

1951年，霍夫曼在MIT攻读博士学位，他和修读信息论课程的同学得选择是完成学期报告还是期末考试。导师Robert Fano出的学期报告题目是：查找最有效的二进制编码。由于无法证明哪个已有编码是最有效的，霍夫曼放弃对已有编码的研究，转向新的探索，最终发现了基于有序频率二叉树编码的想法，并很快证明了这个方法是最有效的。使用自底向上的方法构建二叉树避免了次优算法香农-范诺编码的最大弊端──自顶向下构建树。

`哈弗曼编码`

在计算机数据处理中，霍夫曼编码使用变长编码表对源符号（如文件中的一个字母）进行编码，其中变长编码表是通过一种评估来源符号出现几率的方法得到的，出现几率高的字母使用较短的编码，反之出现几率低的则使用较长的编码，这便使编码之后的字符串的平均长度、期望值降低，从而达到无损压缩数据的目的。简而言之，采用哈弗曼编码的数据WPL最短。

`什么是树的带权路径长度 WPL`

树的带权路径长度，就是树中所有的叶结点的权值乘上其到根结点的路径长度（若根结点为0层，叶结点到根结点的路径长度为叶结点的层数）。树的路径长度是从树根到每一结点的路径长度之和，记为WPL=（W1 * L1+W2 * L2+W3 * L3+…+Wn * Ln），N个权值Wi（i=1,2,…n）构成一棵有N个叶结点的二叉树，相应的叶结点的路径长度为Li（i=1,2,…n）。

维基百科图示

`哈弗曼树的构建`

假设有n个权值，则构造出的哈夫曼树有n个叶子结点。 n个权值分别设为 w1、w2、…、wn，则哈夫曼树的构造规则为：
(1) 将w1、w2、…，wn看成是有n 棵树的森林(每棵树仅有一个结点)；
(2) 在森林中选出两个根结点的权值最小的树合并，作为一棵新树的左、右子树，且新树的根结点权值为其左、右子树根结点权值之和；
(3)从森林中删除选取的两棵树，并将新树加入森林；
(4)重复(2)、(3)步，直到森林中只剩一棵树为止，该树即为所求得的哈夫曼树。

`哈弗曼编码`

1.给霍夫曼树的所有左链接’0’与右链接’1’。
2.从树根至树叶依序记录所有字母的编码。

详细过程

实现霍夫曼编码的方式主要是创建一个二叉树和其节点。这些树的节点可以存储在数组里，数组的大小为符号（symbols）数的大小n，而节点分别是终端节点（叶节点）与非终端节点（内部节点）。
一开始，所有的节点都是终端节点，节点内有三个字段：
1.符号（Symbol）
2.权重（Weight、Probabilities、Frequency）
3.指向父节点的链接（Link to its parent node）
而非终端节点内有四个字段：
1.权重（Weight、Probabilities、Frequency）
2.指向两个子节点的链接（Links to two child node）
3.指向父节点的链接（Link to its parent node）
基本上，用’0’与’1’分别代表指向左子节点与右子节点，最后为完成的二叉树共有n个终端节点与n-1个非终端节点，去除了不必要的符号并产生最佳的编码长度。
过程中，每个终端节点都包含着一个权重（Weight、Probabilities、Frequency），两两终端节点结合会产生一个新节点，新节点的权重是由两个权重最小的终端节点权重之总和，并持续进行此过程直到只剩下一个节点为止。

代码部分

#include <cstdlib>
#include <iostream>
#include <deque>
#include <algorithm>

using namespace std;

const int size = 10;
struct node {                               // 哈弗曼树结构体
    unsigned key;                           // 权
    node *lchild;                           // 左孩子
    node *rchild;                           // 右孩子
};
deque<node *> forest;
deque<bool> code;                           
node *ptr;
int frequency[size] = {0};

void printCode(deque<bool> ptr);            // 输出哈弗曼编码

bool compare( node *a, node *b) {
    return a->key < b->key;
}
int main(int argc, char *argv[]) {
    for (int i = 0; i < size; i++) {
        cin >> frequency[i];                // 输入权
        ptr = new node;
        ptr->key = frequency[i];
        ptr->lchild = NULL;
        ptr->rchild = NULL;
        forest.push_back(ptr);
    } // 形成森林，森林中的每一棵树都是一个节点
    // 从森林构建哈弗曼树
    for (int i = 0; i < size - 1; i++) {
        sort(forest.begin(), forest.end(), compare);
        ptr = new node;
   
        ptr->key = forest[0]->key + forest[1]->key;
        ptr->lchild = forest[0];
        ptr->rchild = forest[1];
        forest.pop_front();
        forest.pop_front();
        forest.push_back(ptr);
    }
    ptr = forest.front(); // ptr是指向根的指针
    system("PAUSE");
    return EXIT_SUCCESS;
}

void printCode(deque<bool> ptr) {
    // deque<bool>
    for (int i = 0; i < ptr.size(); i++) {
        if (ptr[i])
            cout << "1";
        else
            cout << "0";
    }
}

吃瓜太狼

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
哈弗曼树与哈弗曼编码（实现）

哈弗曼树与哈弗曼编码历史背景1951年，霍夫曼在MIT攻读博士学位，他和修读信息论课程的同学得选择是完成学期报告还是期末考试。导师Robert Fano出的学期报告题目是：查找最有效的二进制编码。由于无法证明哪个已有编码是最有效的，霍夫曼放弃对已有编码的研究，转向新的探索，最终发现了基于有序频率二叉树编码的想法，并很快证明了这个方法是最有效的。使用自底向上的方法构建二叉树避免了次优算法香农-范...
复制链接

扫一扫