香农编码基于C语言上的实现
摘要
编码是指为了达到某种目的而对信号进行的一种变换。根据编码的目的不 同,编码理论有三个分支:①信源编码。对信源输出的信号进行变换,包括连续 信号的离散化,即将模拟信号通过采样和量化变成数字信号,以及对数据进行压 缩,提高数字信号传输的有效性而进行的编码。②信道编码。对信源编码器输出 的信号进行再变换,包括区分通路、适应信道条件和提高通信可靠性而进行的编 码。③保密编码。对信道编码器输出的信号进行再变换,即为了使信息在传输过 程屮不易被人窃取而进行的编码。编码理论在数字化遥测遥控系统、电气通信、 数字通信、图像通信、卫星通信、深空通信、计算技术、数据处理、图像处理、 自动控制、人工智能和模式识别等方面都有广泛的应用。其中信源编码乂分为三 种,包括香农编码、哈夫曼编码和算术编码。本文主要介绍香农编码。
关键词:累加概率、排序、爛、码长、编码效率
第1章前言
1948年,美国科学家香农(Shannon)发表了一篇题为“通信的数学理论”的学术论文,这篇划时代论文的问世,宣告了信息论的诞生。信息论的研究领域从自然科学扩展到经济、管理科学其至人文社会科学,从狭义信息论发展到如今的广义信息论,成为涉及面极广的信息科学。1951年美国电信工程师D.A.霍夫曼提出更有效的霍夫曼编码。此后乂出现了传真编码、图像编码和话音编码,对数据压缩进行了深入的研究,解决了数字通信中提出的许多实际问题。在信源编码方面,1951年香农证明,当信源输出有冗余的消息时可通过编码改变信源的输出,使信息传输速率接近信道容量。1948年香农就提出能使信源与信道匹配的香农编码。
编码分为信源编码与信道编码,其中信源编码又分为无失真和限失真。由于 信源符号之间存在分布不均匀和相关性,使得信源存在冗余度,信源编码的主要 任务就是减少兀余,提高编码效率。信源编码的基本途径有两个,一是解除相关 性;二是概率均匀化。信源编码的编码定理有两个,无失真编码定理和限失真编 码定理。信源编码定理出现后,编码方法就趋于合理化。其屮以香浓码、费诺码 和哈夫曼码为无失真编码的最佳码。[1]
第2章 香农编码原理
2.1信源编码原理
信源编码就是从信源符号到码符号的一种映射/,它把信源输出的符号血变 换成码元序列型。
信源编码定义如图2. 1:
> 信源编码器
图2. 1信源编码器
凡是能载荷一定的信息量,且码字的平均长度最短,可分离的变长码的码字 集合都可以称为最佳码。为此必须将概率大的信息符号编以短的码字,概率小的 符号编以长的码字,使得平均码字长度最短。能获得最佳码的编码方法主要有: 香农(Shannon)、费诺(Fano)>哈夫曼(Huffman)编码等。[2]
2.2香农编码原理
香农第一定理指岀了平均码长与信源之间的关系,同时也指出了可以通过编 码使平均码长达到极限值,这是一个很重要的极限定理。如何构造这种码?香农
第一定理指出,选择每个码字的长度Ki满足下式
I(Xi)WK< I(xd+1, Vi
就可以得到这种码。这种编码方法就是香农编码。
2.3编码步骤
香农编码法冗余度稍大,实用性不大,但有重要的理论意义。编码步骤如下:
将信源消息符号按其出现的概率大小依次排列
p (X] ) 2p (X2)2???2p (xn)
确定满足下列不等式整数码长
-log2p(Xj) WKi VTog2p(Xi)+l
为了编成唯一可译码,计算第i个消息的累加概率
p(xk)
知1
将累加概率R变成二进制数。
取R二进制数的小数点后Ki位即为该消息符号的二进制码字。
第3章香农编码的算法介绍
3.1C语言算法介绍
C语言是冃前世界上流行,使用最广泛的高级程序设计语言。C是结构式语 言,结构式语言的显著特点是代码及数据的分隔化,即程序的各个部分除了必要 的信息交流外彼此独立.这种结构化方式可使程序层次清晰,便于使用,维护以 及调试.C语言是以函数形式提供给用户的,这些函数可方便的调用,并具有多种 循环,条件语句控制程序流向,从而使程序完全结构化?[3]
3.2 C语言算法举例
程序中要先定义代码长度的最大值及输入序列的个数,即
#include
#include
#include #define max CL 10
#define max_PN 6
typedef float datatype;
typedef struct SHNODE
{
datatype pb; /*第i个消息符号出现的概率*/ datatype p_sum; /*第i个消息符号累加概率*/ int kl;/*第i个消息符号对应的码长*/
intcode|max_CL|;/*第i个消息符号的码字*/
struct SHN