哈夫曼编码

编码:文本中的字符赋予一串比特位
定长编码
变长编码:较短的比特串给常用字符
                   较长比特串给不常用字符
前缀码:所有的比特串都不是另一个字符比特串的前缀

考虑将字符和二叉树的叶子联系起来形成前缀码

哈夫曼编码是广泛地用于数据文件压缩的十分有效的编码方法。其压缩率通常在20%~90%之间
哈夫曼编码算法用字符在文件中出现的频率表来建立一个用0,1串表示各字符的最优表示方式。

编码过程:
1)初始化n个字符单节点的树,每个字符具有概率,记为权重
2)重复下面的步骤直到剩下一棵单独的树。
找到两个树权重最小,把他们作为新树中的左右子树。并把其权重之和作为新的权重记录在新树的根中。

如a 0.35 b 0.1 c 0.2 d 0.2 _ 0.15
建树后平均字长是多少?
压缩率   
如何获得字符频率?扫描给定的文本统计每个字符的出现次数


优先队列(priority queue)

普通的队列是一种先进先出的数据结构,元素在队列尾追加,而从队列头删除。在优先队列中,元素被赋予优先级。当访问元素时,具有最高优先级的元素最先删除。优先队列具有最高级先出 (largest-in,first-out)的行为特征。

优先队列是0个或多个元素的集合,每个元素都有一个优先权或值,对优先队列执行的操作有1) 查找;2) 插入一个新元素;3) 删除.在最小优先队列(min priority queue)中,查找操作用来搜索优先权最小的元素,删除操作用来删除该元素;对于最大优先队列(max priority queue),查找操作用来搜索优先权最大的元素,删除操作用来删除该元素.优先权队列中的元素可以有相同的优先权,查找与删除操作可根据任意优先权进行.

例题:

请设计一个算法,给一个字符串进行二进制编码,使得编码后字符串长度最短

(以下代码来自牛课网)

#include<iostream>
#include<queue>
#include<algorithm>
#include<string.h>
#define MAX 100
using namespace std;
int main()
{
	char newString[MAX]={0};
	while(cin>>newString)
	{
	int i,j;
	int countNum=0;//统计不同字符个数
	int sum=0;//记录编码后的长度
	int first=0,second=0;//记录队列最小两个值
	int len=strlen(newString);
	   priority_queue<int,vector<int>,greate<int>>huffmanQueue;//定义小值优先高的队列
	sort(&newString[0],&newString[len]);
	for(i=0;i<len;)
	{
		j=i;
		while((j<len)&&(newString[j]==newString[i]))
		{
			j++;
		}
		huffmanQueue.push(j-i);//将字符newString[i]的个数压入队列
		i=j;
		countNum++;
		}
		for(i=0;i<countNum-1;i++)//编码步骤
		{
			first=huffmanQueue.top();	
			huffmanQueue.pop();
			second=huffmanQueue.top();
			huffmanQueue.pop();
			huffmanQueue.push(first+second);
			sum+=first+second;
		}
		cout<<sum<<endl;
	}
	return 0;
}


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值