哈夫曼编码实验

要求:从一文件中读取字符,统计该文件中各个字符(如abc…26个字符)出现的概率,根据各自的概率为权值,为这些字符建立一颗哈夫曼树,并对每个字符进行哈夫曼编码和哈夫曼解码。要求具有较好的变量命名和较好人机交互处理过程。

 代码:

#include <stdio.h>
#include <stdlib.h>
#include <malloc.h>
#include <string.h>

struct Data
{
	char capital;
	char small;
	int count;
};

typedef struct
{
	double weight;
	int parent,lchild,rchild;
}HTNode,*HuffmanTree;
typedef char **HuffmanCode;

void Select(HuffmanTree &HT,int n,int &s1,int &s2)//找出其中权值最小的两个并记下其位置s1,s2 
{
	int i=1;
	double min, secondmin;
	min=secondmin=1; 
	for(i=1;i<=n;i++)
	{
		if(HT[i].weight<min&&HT[i].parent==0)
		{
			min=HT[i].weight;
			s1=i;
		}
	}
	HT[s1].parent=1;         //将s1的parent变为1,避免与下面找s2冲突 
	for(i=1;i<=n;i++)
	{
		if(HT[i].weight<secondmin&&HT[i].parent==0)
		{
			secondmin=HT[i].weight;
			s2=i;
		}
	}
	//printf("%d ",s1);			//调试输出 
	//printf("%d\n",s2);
}

void HuffmanCoding(HuffmanTree &HT,HuffmanCode &HC,double *w,int n)
{
 
	if(n<=1) return;
	int m=2*n-1;
	HT=(HuffmanTree)malloc((m+1)*sizeof(HTNode));
	if(HT==NULL)
	{
		printf("no enough money");
		exit(1);
	}
	int i;
	HuffmanTree p;
	for(p=HT+1,i=1;i<=n;++i,++p)
	{
		p->weight=w[i-1];
		p->lchild=0;
		p->parent=0;
		p->rchild=0;
	}
	for(;i<=m;++i,++p)
	{
		p->weight=0;
		p->lchild=0;
		p->parent=0;
		p->rchild=0;
	}
	for(i=n+1;i<=m;++i)
	{
		int s1=0,s2=0;
		Select(HT,i-1,s1,s2);
		HT[s1].parent=i;
		HT[s2].parent=i;
		HT[i].lchild=s1;
		HT[i].rchild=s2;
		HT[i].weight=HT[s1].weight+HT[s2].weight;
	}
	
	HC = (HuffmanCode)malloc((n+1)*sizeof(char*));
	if(HC==NULL)
	{
		printf("no enough money");
		exit(1);
	}
	char* cd;
	cd = (char*)malloc(n*sizeof(char));
	cd[n-1]='\0';
	for(i=1;i<=n;++i)
	{
		int start;
		start=n-1;
		int c,f;
		for(c=i,f=HT[i].parent;f!=0;c=f,f=HT[f].parent)
		{
			if(HT[f].lchild==c)
			{
				cd[--start]='0';
			}
			else cd[--start]='1'; 
		}
		HC[i]=(char*)malloc((n-start)*sizeof(char));
		strcpy(HC[i],&cd[start]);
	}
	free(cd);
} 

void decode(HuffmanTree &HT,int n,char *Letter)
{
	int root=2*n-1;
	char code [100];
	printf("请输入哈夫曼密码(0或1):");
	int i=0,j=root;
	gets(code);
	int length=0;
	for(i=0;i<100;i++)
	{
		if(code[i]=='0'||code[i]=='1')
		{
			length++;
		}
		else
		{
			break;
		}
	}
	printf("%d\n",length); 
	printf("解码结果如下:\n");
	for(i=0;i<length;i++)
	{
		if(code[i]=='0')
		{
			j=HT[j].lchild;
		}
		else if(code[i]=='1')
		{
			j=HT[j].rchild;
		}
		if(HT[j].lchild==0&&HT[j].rchild==0)
		{
			printf("%c",Letter[j-1]);
			j=root;
		}
	}
	
} 

int main()
{
	struct Data letter[26];
	int num,figure;
	for(num=0,figure=65;num<26;num++,figure++)
	{
		letter[num].capital=figure;
		letter[num].small=figure+32;
		letter[num].count=0;
	}
	
	FILE *fp=NULL;
	if((fp=fopen("D:/HUFFMAN/Huffman.txt","r"))==NULL)
	{
		printf("打开文件失败!");
		system("pause");
		exit(0); 
	}
	char ch;
	int i,j;
	while((ch=fgetc(fp))!=EOF)
	{
		for(i=0;i<26;i++)
		{
			if(ch==letter[i].capital||ch==letter[i].small)
			{
				letter[i].count++;
			}
		}	
	}
	/*for(i=0;i<26;i++)
	{
		printf("%d ",letter[i].count);    //调试输出 
	}*/
	int sum=0;
	for(i=0;i<26;i++)
	{
		sum +=letter[i].count;    //所有字母个数,便于计算概率 
	}
	//printf("\n%d\n",sum);		//调试输出 
	int n=0;                  //n是文本中出现的字母种数(0<=n<=26)
	for(i=0;i<26;i++)
	{
		if(letter[i].count!=0)
		{
			n++;
		}
	}
	//printf("%d\n",n);		//调试输出 
	char Letter[n];
	for(i=0,j=0;i<26&&j<n;i++)
	{
		if(letter[i].count!=0)
		{
			Letter[j]=letter[i].small;
			j++;
		}
	} 
	double weight[n];
	for(i=0,j=0;i<26&&j<n;i++)
	{
		if(letter[i].count!=0)
		{
			weight[j]=letter[i].count*1.0/sum*1.0;
			j++;
		}
	}
	/*for(i=0;i<n;i++)
	{
		printf("%lf ",weight[i]);		//调试输出 
	}
	printf("\n");*/
	
	HuffmanTree letterTree;
	HuffmanCode letterCode;
	HuffmanCoding(letterTree,letterCode,weight,n);
	printf("文本中出现的字母的哈夫曼编码如下:\n");
	for(i=1;i<=n;i++)
	{
		printf("%c:",Letter[i-1]);
		puts(letterCode[i]);
	}
	decode(letterTree,n,Letter);
	free(letterTree);
	free(letterCode);
	fclose(fp);
	return 0;
} 

运行截图:

 

 

说明:代码使用的都是最基础的C语言,编译器用的DevC++5.11,本人较菜,如有错误,欢迎指正。

信息论中的哈夫曼编码是一种变字长编码,可以使得编码的平均码长很接近信息熵的编码。其基本思想是,出现概率大的符号编码短一点(码长小),出现概率小的符号则用更多的码来表示。下面是哈夫曼编码实验步骤和代码实现: 1. 实验步骤: - 统计待编码的字符出现的频率。 - 将字符按照频率从小到大排序。 - 将频率最小的两个字符合并成一个节点,其权值为两个字符的频率之和。 - 将新节点插入到已排序的字符列表中。 - 重复步骤3和4,直到只剩下一个节点。 - 从根节点开始,对每个节点进行编码,左子节点编码为0,右子节点编码为1。 - 对每个字符进行编码,将其对应的编码串连接起来即为哈夫曼编码。 2. 代码实现: ```matlab % 定义字符集和对应的频率 symbols = {'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'}; freq = [0.05, 0.1, 0.15, 0.2, 0.25, 0.1, 0.1, 0.05]; % 构建哈夫曼树 nodes = cell(length(symbols), 1); for i = 1:length(symbols) nodes{i} = struct('Symbol', symbols{i}, 'Freq', freq(i)); end while length(nodes) > 1 [freqs, idx] = sort(cellfun(@(x) x.Freq, nodes)); left = nodes{idx(1)}; right = nodes{idx(2)}; newNode = struct('Symbol', {left.Symbol, right.Symbol}, 'Freq', left.Freq + right.Freq); nodes = {nodes{idx(3:end)}, newNode}; nodes = sort(nodes, @(x) x.Freq); end % 生成编码表 root = nodes{1}; codeTable = cell(length(symbols), 1); for i = 1:length(symbols) code = ''; node = root; while ~isempty(node.Symbol) if ismember(symbols{i}, node.Symbol{1}) code = [code, '0']; node = node(1); else code = [code, '1']; node = node(2); end end codeTable{i} = code; end % 输出编码表 for i = 1:length(symbols) fprintf('%s: %s\n', symbols{i}, codeTable{i}); end ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值