《算法导论》16.3 赫夫曼编码(含C++代码)

一、问题背景

1、赫夫曼算法是一种可以有效压缩数据的算法。假定我们希望压缩一个10万个字符的数据文件。图16-3给出了文件中所出现的字符和它们的出现频率。也就是说,文件中只出现了6个不同字符,其中字符a出现了45 000次。
在这里插入图片描述
2、我们有很多方法可以表示这个文件的信息。在这里,我们考虑一种二进制字符编码(或简
称编码)的方法,每个字符用一个唯一的二进制 串表示,称为码字。如果使用定长编码,需要用3位来表示6个字符: a=000, b=001,…,f=101。这种方法需要300 000个二进制位来编码文件。是否有更好的编码方案呢?
变长编码(variable-lengthcode)可以达到比定长编码好得多的压缩率,其思想是赋予高频字
符短码字,赋予低频字符长码字。图16-3显示了本例的一种变长编码: 1位的串0表示a,4位
的串1100表示f。因此,这种编码表示此文件共需
在这里插入图片描述
很明显就有所优化。
3、前缀码,即没有任何码字是其他码字的前缀,它可以保证最优的数据压缩率。将abc连接起来等同于上面图中变长码连接起来,即0101100。前缀码是没有歧义的,比如001011101解码只是aabe。
4、截取码字很容易,可以通过二叉树,0意味着转向左孩子,1意味着转向右孩子。
在这里插入图片描述
5、文件的最优编码方案总是对应一棵满二叉树, 即每个非叶结点都有两个孩子结点。前文给出的定长编码实例不是最优的,因为它的二叉树表示并非满二叉树,如图16-4(a)所示:它包含以10开头的码字,但不包含以11开头的码字。现在我们可以只关注满二叉树了,因此可以说,若C为字母表且所有字符的出现频率均为正数,则最优前缀码对应的树恰有|C|个叶结点,每个叶结点对应字母表中一个字符,且恰有|C|-1 个内部结点。

二、构造赫夫曼编码

在下面给出的伪代码中,我们假定C是一个n个字符的集合,而其中每个字符c∈C都是一个对象,其属性c.freq给出了字符的出现频率。算法自底向上地构造出对应最优编码的二叉树T。它从|C|个叶结点开始,执行|C|-1个“合并”操作创建出最终的二叉树。
算法使用一个以属性freq为关键字最小优先队列Q,以识别两个最低频率的对象将其合并(可以观察图16-4的b图,最末端的叶结点一定是最小的两个频率)。当合并两个对象时,得到的新对象的频率设置为原来两个对象的频率之和。

HUFFMAN(C)
n = |C|
Q = C	//用C中字符初始化最小优先队列
for i = 1 to n-1	//n-1次合并频率最小的两个元素
	allocate a new node z
	z.left = x = EXTRACT-MIN(Q)		//xy作为左右孩子顺序是任意的
	z.right = y = EXTRACT-MIN(Q)
	z.freq = x.freq + y.freq	
	INSERT(Q,z)
return EXTRACT-MIN(Q)

在这里插入图片描述

三、验证算法正确性(拓展一下,姑且截图)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

四、C++代码

#include <iostream>
using namespace std;
#include <vector>
#include <algorithm>
//代表赫夫曼树结点的结构体
struct HTNode
{
    int weight;
    int parent;
    int lchild, rchild;
    HTNode(int val = 0) : weight(val)
    {
        parent = 0;
        lchild = -1;
        rchild = -1;
    }
};
struct Elem
{
    char ch;   //存储字符
    int frequence; //出现的频率
};

//计算每个字符出现的频率
vector<Elem> CntFrequenceOfLetter(string str)
{
    vector<Elem> InfoList; //存储字符频率信息
    if (str.size() == 0)
        return InfoList;
    sort(str.begin(), str.end());//排序字符串
    char s = str[0];
    int frequence = 0;
    for (int i = 0; i < str.size(); i++)
    {
        if (str[i] != s)
        {
            //将统计的信息存入结构体
            Elem letter;
            letter.ch = s;
            letter.frequence = frequence;
            InfoList.push_back(letter);     //将元素存入数组中
            //开始统计下一个字符
            s = str[i];
            frequence = 1;
        }
        else
        {
            frequence++;
        }
        //如果为最后一个字符,不管是和前面一个字符相同还是不相同,都进行收尾
        if (i == str.size() - 1)
        {
            //将统计的信息存入结构体
            Elem letter;
            letter.ch = s;
            letter.frequence = frequence;
            InfoList.push_back(letter);
        }
    }
    return InfoList;
}

//从森林中选择权重最小的两棵树
void SelectTree(vector<HTNode>& T, int* s1, int* s2)
{
    int min = INT_MAX;
    //选出第一小的
    for (int i = 0; i < T.size(); i++)
    {
        if (T[i].parent == 0 && T[i].weight <= min)
        {
            min = T[i].weight;
            *s1 = i;
        }
    }
    min = INT_MAX;  //MAX为全局变量
    //选出第二小的
    for (int i = 0; i < T.size(); i++)
    {
        if (T[i].parent == 0 && T[i].weight < min && *s1 != i)
        {
            min = T[i].weight;
            *s2 = i;
        }
    }
}

//构造赫夫曼树
vector<HTNode> CrtHuffmanTree(vector<Elem> InfoList)
{
    vector<HTNode> HTNodeList(InfoList.size());
    if (HTNodeList.size() == 0) {
        return HTNodeList;
    }
    else
    {
        for (int i = 0; i < InfoList.size(); i++)
        {
            HTNodeList[i].weight = InfoList[i].frequence;
        }
        for (int j = InfoList.size(); j < 2 * InfoList.size() - 1; j++)
        {
            int s1 = 0, s2 = 0;
            //找到森林中权重最小的树
            SelectTree(HTNodeList, &s1, &s2);
            //cout << s1 << " " << s2 << endl;
            //合并成新结点
            HTNode NewNode(HTNodeList[s1].weight + HTNodeList[s2].weight);  //权重更新
            NewNode.lchild = s1;    //父子关系创建
            NewNode.rchild = s2;
            HTNodeList[s1].parent = HTNodeList.size();  //通过size确认父结点的下标,如第一次循环(6种元素),那么父结点刚好变成list[6]
            HTNodeList[s2].parent = HTNodeList.size();
            //cout <<"HTNodeList.size:" << HTNodeList.size() << endl;
            HTNodeList.push_back(NewNode);
        }
    }
    return HTNodeList;
}

//生成赫夫曼编码
void CrtHuffmanCode(vector<Elem> list1, vector<HTNode> list2)
{
    vector<int> code;
    for (auto i = 0; i < list1.size(); i++)
    {
        cout << list1[i].ch << ": ";
        auto crr = i;   //crr的作用是记录i,从而在list2先从最底层的结点开始遍历
        while (list2[crr].parent != 0)
        {
            auto parent = list2[crr].parent;    //将parent赋值为该结点的parent
            if (crr == list2[parent].lchild)
                code.push_back(0);
            else if (crr == list2[parent].rchild)
                code.push_back(1);
            crr = list2[crr].parent;    //crr更新成父结点
        }
        //反向遍历容器
        for (auto it = code.rbegin(); it != code.rend(); ++it)
        {
            cout << *it << " ";
        }
        cout << endl;
        code.clear();
    }
}

int main()
{
    string s = "AAABBBBCCCCCCCCCCDDDDDDDDEEEEEEFFFFF";// 3 4 10 8 6 5
    auto list = CntFrequenceOfLetter(s);    //先算出对应元素的频率,返回一个数组
    auto TreeList = CrtHuffmanTree(list);
    CrtHuffmanCode(list, TreeList);
}
  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

KeepCoding♪Toby♪

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值