《算法导论》16.3 赫夫曼编码（含C++代码）

KeepCoding♪Toby♪

已于 2022-10-13 20:25:13 修改

阅读量801

点赞数 3

分类专栏：算法导论阅读文章标签： c++ 算法数据结构

于 2022-09-18 12:33:01 首次发布

本文链接：https://blog.csdn.net/m0_61843614/article/details/126915338

版权

算法导论阅读专栏收录该内容

59 篇文章 28 订阅

订阅专栏

一、问题背景

1、赫夫曼算法是一种可以有效压缩数据的算法。假定我们希望压缩一个10万个字符的数据文件。图16-3给出了文件中所出现的字符和它们的出现频率。也就是说，文件中只出现了6个不同字符，其中字符a出现了45 000次。
在这里插入图片描述
2、我们有很多方法可以表示这个文件的信息。在这里，我们考虑一种二进制字符编码(或简
称编码)的方法，每个字符用一个唯一的二进制串表示，称为码字。如果使用定长编码，需要用3位来表示6个字符: a=000， b=001，…，f=101。这种方法需要300 000个二进制位来编码文件。是否有更好的编码方案呢?
变长编码(variable-lengthcode)可以达到比定长编码好得多的压缩率，其思想是赋予高频字
符短码字，赋予低频字符长码字。图16-3显示了本例的一种变长编码: 1位的串0表示a，4位
的串1100表示f。因此，这种编码表示此文件共需
在这里插入图片描述
很明显就有所优化。
3、前缀码，即没有任何码字是其他码字的前缀，它可以保证最优的数据压缩率。将abc连接起来等同于上面图中变长码连接起来，即0101100。前缀码是没有歧义的，比如001011101解码只是aabe。
4、截取码字很容易，可以通过二叉树，0意味着转向左孩子，1意味着转向右孩子。
在这里插入图片描述
5、文件的最优编码方案总是对应一棵满二叉树，即每个非叶结点都有两个孩子结点。前文给出的定长编码实例不是最优的，因为它的二叉树表示并非满二叉树，如图16-4(a)所示：它包含以10开头的码字，但不包含以11开头的码字。现在我们可以只关注满二叉树了，因此可以说，若C为字母表且所有字符的出现频率均为正数，则最优前缀码对应的树恰有|C|个叶结点，每个叶结点对应字母表中一个字符，且恰有|C|-1 个内部结点。

二、构造赫夫曼编码

在下面给出的伪代码中，我们假定C是一个n个字符的集合，而其中每个字符c∈C都是一个对象，其属性c.freq给出了字符的出现频率。算法自底向上地构造出对应最优编码的二叉树T。它从|C|个叶结点开始，执行|C|-1个“合并”操作创建出最终的二叉树。
算法使用一个以属性freq为关键字最小优先队列Q，以识别两个最低频率的对象将其合并（可以观察图16-4的b图，最末端的叶结点一定是最小的两个频率）。当合并两个对象时，得到的新对象的频率设置为原来两个对象的频率之和。

HUFFMAN(C)
n = |C|
Q = C	//用C中字符初始化最小优先队列
for i = 1 to n-1	//n-1次合并频率最小的两个元素
	allocate a new node z
	z.left = x = EXTRACT-MIN(Q)		//xy作为左右孩子顺序是任意的
	z.right = y = EXTRACT-MIN(Q)
	z.freq = x.freq + y.freq	
	INSERT(Q,z)
return EXTRACT-MIN(Q)

在这里插入图片描述

三、验证算法正确性（拓展一下，姑且截图）

在这里插入图片描述

四、C++代码

#include <iostream>
using namespace std;
#include <vector>
#include <algorithm>
//代表赫夫曼树结点的结构体
struct HTNode
{
    int weight;
    int parent;
    int lchild, rchild;
    HTNode(int val = 0) : weight(val)
    {
        parent = 0;
        lchild = -1;
        rchild = -1;
    }
};
struct Elem
{
    char ch;   //存储字符
    int frequence; //出现的频率
};

//计算每个字符出现的频率
vector<Elem> CntFrequenceOfLetter(string str)
{
    vector<Elem> InfoList; //存储字符频率信息
    if (str.size() == 0)
        return InfoList;
    sort(str.begin(), str.end());//排序字符串
    char s = str[0];
    int frequence = 0;
    for (int i = 0; i < str.size(); i++)
    {
        if (str[i] != s)
        {
            //将统计的信息存入结构体
            Elem letter;
            letter.ch = s;
            letter.frequence = frequence;
            InfoList.push_back(letter);     //将元素存入数组中
            //开始统计下一个字符
            s = str[i];
            frequence = 1;
        }
        else
        {
            frequence++;
        }
        //如果为最后一个字符，不管是和前面一个字符相同还是不相同，都进行收尾
        if (i == str.size() - 1)
        {
            //将统计的信息存入结构体
            Elem letter;
            letter.ch = s;
            letter.frequence = frequence;
            InfoList.push_back(letter);
        }
    }
    return InfoList;
}

//从森林中选择权重最小的两棵树
void SelectTree(vector<HTNode>& T, int* s1, int* s2)
{
    int min = INT_MAX;
    //选出第一小的
    for (int i = 0; i < T.size(); i++)
    {
        if (T[i].parent == 0 && T[i].weight <= min)
        {
            min = T[i].weight;
            *s1 = i;
        }
    }
    min = INT_MAX;  //MAX为全局变量
    //选出第二小的
    for (int i = 0; i < T.size(); i++)
    {
        if (T[i].parent == 0 && T[i].weight < min && *s1 != i)
        {
            min = T[i].weight;
            *s2 = i;
        }
    }
}

//构造赫夫曼树
vector<HTNode> CrtHuffmanTree(vector<Elem> InfoList)
{
    vector<HTNode> HTNodeList(InfoList.size());
    if (HTNodeList.size() == 0) {
        return HTNodeList;
    }
    else
    {
        for (int i = 0; i < InfoList.size(); i++)
        {
            HTNodeList[i].weight = InfoList[i].frequence;
        }
        for (int j = InfoList.size(); j < 2 * InfoList.size() - 1; j++)
        {
            int s1 = 0, s2 = 0;
            //找到森林中权重最小的树
            SelectTree(HTNodeList, &s1, &s2);
            //cout << s1 << " " << s2 << endl;
            //合并成新结点
            HTNode NewNode(HTNodeList[s1].weight + HTNodeList[s2].weight);  //权重更新
            NewNode.lchild = s1;    //父子关系创建
            NewNode.rchild = s2;
            HTNodeList[s1].parent = HTNodeList.size();  //通过size确认父结点的下标，如第一次循环（6种元素），那么父结点刚好变成list[6]
            HTNodeList[s2].parent = HTNodeList.size();
            //cout <<"HTNodeList.size:" << HTNodeList.size() << endl;
            HTNodeList.push_back(NewNode);
        }
    }
    return HTNodeList;
}

//生成赫夫曼编码
void CrtHuffmanCode(vector<Elem> list1, vector<HTNode> list2)
{
    vector<int> code;
    for (auto i = 0; i < list1.size(); i++)
    {
        cout << list1[i].ch << ": ";
        auto crr = i;   //crr的作用是记录i，从而在list2先从最底层的结点开始遍历
        while (list2[crr].parent != 0)
        {
            auto parent = list2[crr].parent;    //将parent赋值为该结点的parent
            if (crr == list2[parent].lchild)
                code.push_back(0);
            else if (crr == list2[parent].rchild)
                code.push_back(1);
            crr = list2[crr].parent;    //crr更新成父结点
        }
        //反向遍历容器
        for (auto it = code.rbegin(); it != code.rend(); ++it)
        {
            cout << *it << " ";
        }
        cout << endl;
        code.clear();
    }
}

int main()
{
    string s = "AAABBBBCCCCCCCCCCDDDDDDDDEEEEEEFFFFF";// 3 4 10 8 6 5
    auto list = CntFrequenceOfLetter(s);    //先算出对应元素的频率，返回一个数组
    auto TreeList = CrtHuffmanTree(list);
    CrtHuffmanCode(list, TreeList);
}