文本编码(哈夫曼树)
构建哈夫曼树
假设有n个权值,则构造出的哈夫曼树有2n-1个结点。n个权值分别设为 w1、w2、…、wn,则哈夫曼树的构造规则为:
1、将w1、w2、…,wn看成是有n 棵树的森林(每棵树仅有一个结点),并按权值从小到大排列;
2、在森林中选出两个根结点的权值最小的树合并,作为一棵新树的左、右子树,且新树的
根结点权值为其左、右子树根结点权值之和;
3、从森林中删除选取的两棵树,并将新树加入森林;
4、重复(2)、(3)步,直到森林中只剩一棵树为止,该树即为所求得的哈夫曼树。
如:对 下图中的六个带权叶子结点来构造一棵哈夫曼树,步骤如下:
利用最优二叉树(也称哈夫曼树)可以对文本进行编码. 例如一个文本内只出现了A,B,C,D,E,F,G,H八种符号, 并且各自出现的频数如下表:
为了使得到的哈夫曼树的结构尽量唯一,通常规定生成的哈夫曼树中每个结点的左子树根结点的权小于等于右子树根结点的权。
该部分内容转自哈夫曼树编码
文本编码问题
利用最优二叉树(也称哈夫曼树)可以对文本进行编码. 例如一个文本内只出现了A,B,C,D,E,F,G,H八种符号, 并且各自出现的频数如下表:
字符 | A | B | C | D | E | F | G | H |
---|---|---|---|---|---|---|---|---|
频数 | 5 | 29 | 23 | 3 | 11 | 14 | 7 | 8 |
每个字符的ASCII码占8位, 一个字节, 容易算出该文本占用字节数: 5+29+23+3+11+14+7+8 = 100.
可以按以下方法构造最优二叉树, 实现这些字符的重新编码.
按照上述构建哈夫曼树的理解,设计两个结构体node、lists,lists用来保存字符、权值,node为双链表结构体构成哈夫曼树。
使用vector容器构建lists数组方便排序和插入,根据排列好的lists数组用双链表结构体node构成哈夫曼树,将哈夫曼树的每个节点的地址保存lists结构体中的next成员变量中。构建好哈夫曼树后,利用先序遍历进行编码,并将每个节点对应的编码序列储存在node结构体中的code成员变量中。这样,就可从lists中找到字符对应的节点地址,从而找到对应的编码序列。
#include <bits/stdc++.h>
using namespace std;
struct node
{
struct node* left; //左儿子的地址
string code; //编码序列
struct node* right; //右儿子的地址
};
struct lists
{
string sym; //字符
int data; //权值
struct node* next; //字符的节点地址
};
void node_init(node**h)
{
*h=new node;
(*h)->left=NULL;
(*h)->right=NULL;
}
void lists_init(lists**h)
{
*h=new lists;
(*h)->next=NULL;
}
//创建新子树
lists* creat_node(lists *a,lists *b)
{
int sum;
lists *p;
node *s;
node_init(&s);
lists_init(&p);
sum=a->data+b->data;
s->left=a->next;
s->right=b->next;
p->sym=a->sym+b->sym;
p->data=sum;
p->next=s;
return p;
}
//先序遍历,并进行编码
void preorder(node *BT,string s)
{
if (BT==NULL)
{
return ;
}
else
{
if(BT->left!=NULL)
{
s=s+"0";
BT->left->code=s;
preorder(BT->left,s);
}
if(BT->right!=NULL)
{
s.erase(s.end()-1);
s=s+"1";
BT->right->code=s;
preorder(BT->right,s);
}
}
}
bool compare(lists a,lists b)
{
return a.data<b.data;
}
//寻找新节点插入位置
int pos(vector<lists> s,lists p,int i,int len)
{
int j;
for (j=i+1 ; j<len; j++)
{
if(p.data<s[j].data) return j;
}
return len-1;
}
int main()
{
int i,j,len=8;
lists *p;
node *h,*s;
string code;
vector<lists> list1(8);
node_init(&h);
freopen("1.in", "r", stdin);
for(i=0;i<8;i++)
{
cin>>list1[i].sym;
getchar();
cin>>list1[i].data;
getchar();
list1[i].next=NULL;
}
sort(list1.begin(),list1.end(),compare);
for(i=0;i<8;i++)
{
node_init(&s);
list1[i].next=s;
}
//创建新节点
for(i=1;i<15-1;i+=2)
{
len++;
p=creat_node(&list1[i-1],&list1[i]);
list1.insert(list1.begin()+pos(list1,*p,i,len),*p);
}
h=p->next;
preorder(h,code);
for(i=0;i<15;i++)
{
j=list1[i].sym.size();
if(j==1)
{
cout<<list1[i].sym<<" ";
cout<<list1[i].next->code<<endl;
}
}
return 0;
}