【数据结构】Huffman树及Huffman编码的算法实现

通信工程的小伙伴请看文章使用说明

实验内容

  1. 输入一段100—200字的英文短文,存入一文件a中。
  2. 写函数统计短文出现的字母个数n及每个字母的出现次数u
  3. 写函数以字母出现次数作权值,建Huffman树(n个叶子),给出每个字母的Huffman编码。
  4. 用每个字母编码对原短文进行编码,码文存入文件b中。
  5. 用Huffman树对文件b中码文进行译码,结果存入文件c中,比较a,c是否一致,以检验编码、译码的正确性。

数据结构定义

在这里插入图片描述

算法思想及算法设计

  1. 创建哈夫曼树
    在 n个权值中选出两个最小的权值,对应的两个结点组成一个新的二叉树,且新二叉树的根结点的权值为左右孩子权值的和;在原有的 n个权值中删除那两个最小的权值,同时将新权值加入到 n–2 个权值的行列中,以此类推;直到所以的结点构建成了一棵二叉树为止。
    在这里插入图片描述
  1. 建立哈夫曼编码
    首先分配n个字符编码的头指针向量以及求编码的工作空间,之后逐个字符求哈夫曼编码。从叶子向根逆向求每个字符的编码并存放在工作空间中,向左走为0,向右走为1。最后为第i个字符的头指针向量分配空间,将工作空间所存储的编码复制到其中。
    在这里插入图片描述
  1. 编码:打开a,b文件,如果从a文件中读取未到结尾,则判断字符的种类,并写入b文件中。最后关闭两个文件。
    在这里插入图片描述
  1. 译码:打开b,c文件,每次从根节点开始,读到1,则取其右孩子,读到0,则取其左孩子,一直到叶子节点。根据求得叶子结点的地址输出相对应字符,直到文件结尾。
    在这里插入图片描述

实验代码

功能函数

函数HuffmanCoding()完成了建立哈夫曼树和哈夫曼编码的功能。

#include<iostream>
#include<string.h>
using namespace std;
#define MAXNUM 10000
typedef struct
{
    unsigned int weight;
    unsigned int parent,lchild,rchild;
}HTNode,*HuffmanTree;
typedef char**HuffmanCode;

void count(int countletter[55])
{ 
    char ch;
    FILE *f;
    f = fopen("a.txt","r");
    while ((ch = fgetc(f)) != EOF)
    {
        if (ch <= 'z' && ch >= 'a')
        {
            countletter [ch-'a'+1] ++;
        } 
        else    if (ch <= 'Z' && ch >= 'A')
        {
            countletter [ch-'A'+27] ++;
        }
        else if (ch == ',') 
            countletter [53] ++;
        else if (ch == '.')
            countletter [54] ++;
        else if (ch == ' ')
            countletter [55] ++;                                   
    } 
    fclose(f);
}

void Select (HuffmanTree HT, int k, int &s1, int &s2)
{
    for (int i = 1; i <= k; ++ i)
    {
        if (HT[i].parent == 0)
        {
            if (HT[i].weight <= HT[s1].weight)
            {
                s2 = s1;
                s1 = i;
            }
            else if (HT[i].weight <= HT[s2].weight)
            {
                s2 = i;
            }  
        }
    }
}

void HuffmanCoding (HuffmanTree &HT, HuffmanCode &HC, int *w, int n)
{
    HuffmanTree p;
    int i, m, s1, s2, sum = 1;
    if (n <= 1)
        return;
    m = 2*n - 1;
    w ++;
    HT = (HuffmanTree) malloc ((m+2) * sizeof(HTNode));
    for (p = HT+1, i = 1; i <= n; ++ i, ++ p, ++ w)
    {
        p->weight=*w;
        p->lchild=0;
        p->rchild=0;
        p->parent=0;
    }
    for (; i <= m; ++ i, ++ p)
    {
        p->weight=0;
        p->lchild=0;
        p->parent=0;
        p->rchild=0;
    }
    for (i = 1; i <= n; ++ i)                                               
        sum += HT[i].weight;
    HT[m+1].weight = sum + 1;
    for ( i = n+1; i <= m; ++ i)
    {
        s1 = s2 = m+1;          
        Select(HT, i-1, s1, s2);
        HT[s1].parent = i;
        HT[s2].parent = i;
        HT[i].lchild = s1;
        HT[i].rchild = s2;
        HT[i].weight = HT[s1].weight + HT[s2].weight;
    }

    char *cd;
    HC = (HuffmanCode) malloc ((n+1)*sizeof(char *));
    cd = (char *)malloc(n * sizeof(char));
    cd [n-1] = '\0';
    for (i = 1; i <= n; ++ i)
    {                                                                  
        int start = n-1;
        for (unsigned int c = i, f = HT[i].parent; f != 0; c = f, f = HT[f].parent)
        {
            if(HT[f].lchild==c)
            cd[--start]='0';
            else
            cd[--start]='1';
        }
        HC[i] = (char *)malloc ((n-start)* sizeof(char));
        strcpy (HC[i], &cd[start]);
    }
    free(cd);
}

void Encode(HuffmanCode HC)
{
    FILE *f1, *f2;
    f1 = fopen("b.txt","w");
    f2 = fopen("a.txt","r");
    char ch;
    while ((ch = fgetc(f2)) != EOF)
    {
        if (ch <= 'z' && ch >= 'a')
            fprintf(f1,"%s",HC[ch-'a'+1]);
        else if (ch <= 'Z' && ch >= 'A')
            fprintf(f1,"%s",HC[ch-'A'+27]);
        else if (ch == ',')
            fprintf(f1,"%s",HC[53]);
        else if (ch == '.')
            fprintf(f1,"%s",HC[54]);
        else if (ch == ' ')
            fprintf(f1,"%s",HC[55]);                         
    } 
    fclose(f2);
    fclose(f1);
    cout<<"编码完成^_^"<<endl;
}

void Decode(HuffmanTree HT, int n)
{
    FILE *f, *p;
    f = fopen ("b.txt", "r");
    p = fopen ("c.txt", "w");
    char ch;
    int i = 2*n - 1;
    ch = fgetc(f);
    while (ch!= EOF )
    {
        i = 2*n - 1;
        while (HT[i].rchild != 0)
        {
            if (ch == '0')
                i = HT[i].lchild;
            else
                i = HT[i].rchild;
            ch = fgetc(f);
        }
        if (i >= 1 && i <= 26)
            fprintf (p, "%c", i + 96);
        else if( i >= 27 && i <= 52)
                fprintf(p, "%c", i + 38); 
        else if ( i == 53)
            fprintf(p, ",");
        else if (i == 54)
            fprintf(p, ".");
        else if (i == 55)
            fprintf(p, " ");
    }
    fclose(f);
    fclose(p);
    cout<<"译码完成^_^"<<endl;
}

主函数

int main()
{
    int character[100] = {0};
    HuffmanTree HT;
    HuffmanCode HC;
    count(character);
    HuffmanCoding (HT, HC,character,55);
    Encode(HC);
    Decode(HT, 55);
    cout<<"请在文件中查看结果...";
    return 0;
} 

实验结果

创建三个文件,名字可以自行定义,并与代码中的一致,注意文件路径。
在本文中,有a.txt,b.txt,c.txt三个文件,其中a.txt和c.txt在程序执行后应该相同。

分析与总结

Huffman树为最优二叉树,是一类带权路径长度最短的树。利用Huffman树求得的用于通信的二进制编码称为Huffman编码,创建编码的时间复杂度大致为O(nlogn)。Huffman编码可以之后的字符串的平均长度降低,从而可以达到无损压缩数据的目的。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Huffman树是一种用于数据压缩的算法,它通过构建一棵二叉树实现。在构建Huffman树的过程中,我们需要先将待压缩的数据按照出现频率从小到大排序,然后将频率最小的两个数据合并成一个节点,该节点的权值为两个数据的权值之和。接着,将新节点插入到已排序的数据中,重新排序,重复以上步骤,直到只剩下一个节点,这个节点就是Huffman树的根节点。 Huffman编码是一种将字符编码为二进制的算法,它利用Huffman树的结构来实现。在Huffman树中,左子树表示,右子树表示1,从根节点到叶子节点的路径就是该字符编码编码的长度取决于该字符Huffman树中的深度,出现频率越高的字符编码越短。 Huffman编码算法实现步骤如下: 1. 统计每个字符出现的频率,并按照频率从小到大排序。 2. 将频率最小的两个字符合并成一个节点,该节点的权值为两个字符的权值之和。 3. 将新节点插入到已排序字符中,重新排序。 4. 重复步骤2和3,直到只剩下一个节点,这个节点就是Huffman树的根节点。 5. 遍历Huffman树,生成每个字符编码。 6. 将编码存储起来,用于解码时的还原。 以上就是Huffman树及Huffman编码算法实现。 ### 回答2: Huffman树是一种用来进行数据压缩的算法,它基于字符出现的频率来构建一棵树,从而生成一种特殊的编码方式——Huffman编码Huffman编码是一种非常高效的压缩方式,可以让数据在传输或存储时占用更少的空间。 Huffman树的构建过程非常简单,可以分为以下几步: 1. 统计每个字符出现的频率,根据频率从小到大排序。 2. 取出频率最小的两个字符,合并成一个新节点,并将新节点的频率设置为这两个字符的频率之和。新节点的左节点为频率小的字符,右节点为频率大的字符。 3. 重复步骤2,直到只剩下一个节点,此节点即为Huffman树的根节点。 在构建Huffman树完成后,就可以得到每个字符Huffman编码Huffman编码的规则是:左子节点表示0,右子节点表示1。从根节点开始,沿着每个字符所在路径的方向记录0或1,然后组成一个二进制数就是该字符Huffman编码。 在实现Huffman编码时,我们可以通过一个哈希表来存储每个字符出现频率,然后将哈希表中的数据插入到一个优先队列中,优先队列中的元素按照频率从小到大排序。接下来,我们可以按照上述步骤来构建Huffman树,最后得到每个字符Huffman编码。我们可以将Huffman编码存储到另一个哈希表中,这样我们就可以将原始数据按照Huffman编码来进行压缩了。 Huffman编码是一种很好的数据压缩方式,它可以大大减少数据在传输和存储时所占用的空间。Huffman树的构建和Huffman编码实现并不难,只需要遵循一定的规则,就可以得到正确的结果。 ### 回答3: Huffman树是一种基于贪心算法的数据压缩方式,通过构建哈夫曼树(也称最优二叉树),来实现对数据的压缩和解压缩。其编码方式被广泛应用于压缩文件、图像和视频等多种媒体数据。 哈夫曼树是一种带权树(也称为加权树),每个节点带有权值(也称为频率),树根到叶子节点的路径表示一个字符编码。哈夫曼树的构造需要完成三个步骤: 1. 将给定字符集中的每个字符,按照出现频率从小到大进行排序; 2. 依次选取出现频率最小的两个字符,创建一个新节点,将这两个节点作为其子节点,将新节点的权值设为这两个节点的权值之和; 3. 重复步骤2,直到只剩下一个节点,此节点即为哈夫曼树的根节点。 构造好哈夫曼树后,通过遍历树,得到每个字符编码。具体方法是从根节点开始,如果遇到左子节点就在当前编码的末尾添加0,如果遇到右子节点就添加1,直到到达叶子节点,此时就得到了该字符对应的编码。在编码时,为了避免出现字符编码相同的情况,要求每个字符编码不是任何一个字符编码的前缀。 Huffman编码实现主要有两个步骤:构建哈夫曼树和生成编码。在构建哈夫曼树时,需要使用堆这个数据结构来维护出现频率最小的两个字符。在生成编码时,可以通过深度优先遍历递归来实现。 使用哈夫曼编码可以将一组字符压缩成相应的位序列,可以大大减小存储和传输数据所需的空间和时间。然而,哈夫曼编码虽然可以解决数据压缩的问题,但一旦数据被压缩,就需要解压缩才能使用,而解压缩的过程中会消耗一定的时间和计算资源。此外,当压缩目标文件内容比较零散,分布比较分散时,使用哈夫曼编码并不能得到较好的压缩效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值