定长编码
变长编码:较短的比特串给常用字符
较长比特串给不常用字符
前缀码:所有的比特串都不是另一个字符比特串的前缀
考虑将字符和二叉树的叶子联系起来形成前缀码
哈夫曼编码是广泛地用于数据文件压缩的十分有效的编码方法。其压缩率通常在20%~90%之间
哈夫曼编码算法用字符在文件中出现的频率表来建立一个用0,1串表示各字符的最优表示方式。
编码过程:
1)初始化n个字符单节点的树,每个字符具有概率,记为权重
2)重复下面的步骤直到剩下一棵单独的树。
找到两个树权重最小,把他们作为新树中的左右子树。并把其权重之和作为新的权重记录在新树的根中。
如a 0.35 b 0.1 c 0.2 d 0.2 _ 0.15
建树后平均字长是多少?
压缩率 如何获得字符频率?扫描给定的文本统计每个字符的出现次数
优先队列(priority queue)
普通的队列是一种先进先出的数据结构,元素在队列尾追加,而从队列头删除。在优先队列中,元素被赋予优先级。当访问元素时,具有最高优先级的元素最先删除。优先队列具有最高级先出 (largest-in,first-out)的行为特征。
优先队列是0个或多个元素的集合,每个元素都有一个优先权或值,对优先队列执行的操作有1) 查找;2) 插入一个新元素;3) 删除.在最小优先队列(min priority queue)中,查找操作用来搜索优先权最小的元素,删除操作用来删除该元素;对于最大优先队列(max priority queue),查找操作用来搜索优先权最大的元素,删除操作用来删除该元素.优先权队列中的元素可以有相同的优先权,查找与删除操作可根据任意优先权进行.
例题:
请设计一个算法,给一个字符串进行二进制编码,使得编码后字符串长度最短
(以下代码来自牛课网)
#include<iostream>
#include<queue>
#include<algorithm>
#include<string.h>
#define MAX 100
using namespace std;
int main()
{
char newString[MAX]={0};
while(cin>>newString)
{
int i,j;
int countNum=0;//统计不同字符个数
int sum=0;//记录编码后的长度
int first=0,second=0;//记录队列最小两个值
int len=strlen(newString);
priority_queue<int,vector<int>,greate<int>>huffmanQueue;//定义小值优先高的队列
sort(&newString[0],&newString[len]);
for(i=0;i<len;)
{
j=i;
while((j<len)&&(newString[j]==newString[i]))
{
j++;
}
huffmanQueue.push(j-i);//将字符newString[i]的个数压入队列
i=j;
countNum++;
}
for(i=0;i<countNum-1;i++)//编码步骤
{
first=huffmanQueue.top();
huffmanQueue.pop();
second=huffmanQueue.top();
huffmanQueue.pop();
huffmanQueue.push(first+second);
sum+=first+second;
}
cout<<sum<<endl;
}
return 0;
}