通信编码揭秘：（一）信源编码（Huffman Coding、Shannon-Fano Coding、Arithmetic Coding）与其应用

DR. BULL ELECTRONICS

已于 2024-08-11 09:52:55 修改

阅读量3.7k

点赞数 30

分类专栏：无线通信文章标签：信息与通信信号处理

于 2024-08-10 23:51:13 首次发布

本文链接：https://blog.csdn.net/upgrador/article/details/141098351

版权

无线通信专栏收录该内容

4 篇文章

订阅专栏

通信编码揭秘：（一）信源编码（Huffman Coding、Shannon-Fano Coding、Arithmetic Coding）与其应用

在通信系统中，信源编码的目的是减少数据传输中的冗余，提高传输效率。本文将介绍几种常见的信源编码方法，包括霍夫曼编码、香农-范诺编码和算术编码，并通过实际例子详细说明它们的工作原理和编码效率。

1. 引言

在通信系统中，信息从发送端经过信源编码后，通过信道传输到接收端。信源编码的作用是减少冗余信息，提高数据传输的效率。为了更好地理解算术编码在通信系统中的应用，我们可以通过以下通信系统框图展示信源编码和算术编码在整个数据传输链中的位置：

在这个框图中，信源编码通过算术编码将原始数据压缩成更小的位流，之后再通过信道编码等环节进行传输。解码过程在接收端还原原始数据，从而完成整个通信过程。本文将详细介绍几种常见的信源编码方法。

2. 信源编码

信源编码的目的是减少数据中的冗余信息，以提高数据传输的效率。以下分别介绍三种常见的信源编码方法：霍夫曼编码、香农-范诺编码和算术编码，并通过实际例子说明它们的工作原理。

编码方法	原理	适用场景	编码效率 (与信源熵对比)	优势	劣势
霍夫曼编码	基于符号出现概率构建二叉树	适用于概率分布不均的场景	接近信源熵	实现简单，编码效率高	需要完整概率信息
香农-范诺编码	基于符号概率划分	适用于概率分布较均匀的场景	接近信源熵但略大于信源熵	实现简单，接近最优长度	平均码长略高于霍夫曼编码
算术编码	基于区间分割进行编码	适用于长消息或概率动态变化的场景	理论上最接近信源熵	编码效率最高，适应动态变化	实现复杂，对精度有要求

2.1 霍夫曼编码(Huffman Coding)

2.1.1 原理

霍夫曼编码是一种基于符号出现概率的无损数据压缩算法。通过为出现频率较高的符号分配较短的编码，出现频率较低的符号分配较长的编码，霍夫曼编码能够有效地减少平均编码长度。

2.1.2 编码过程

符号频率统计：统计各个符号的出现频率。
构建霍夫曼树：根据符号频率构建霍夫曼树，将频率最低的两个符号合并为一个新节点，重复此过程直到构建出霍夫曼树。
生成编码表：从霍夫曼树根节点开始，左分支标记为“0”，右分支标记为“1”，最终为每个符号生成唯一的二进制编码。

2.1.3 举例

假设有四个符号 A, B, C, D，它们的出现频率如下：

符号	频率
A	0.4
B	0.3
C	0.2
D	0.1

根据霍夫曼编码算法，我们可以按照以下步骤得到编码表：

构建初始节点：每个符号作为一个节点，根据它们的出现频率创建一个优先队列（或最小堆）。初始队列如下：
- A: 0.4
- B: 0.3
- C: 0.2
- D: 0.1
合并节点：从队列中取出频率最小的两个节点进行合并，形成一个新的节点，新的节点频率为这两个节点频率之和。将新节点重新插入队列，重复此过程直到只剩下一个节点。
- 第一次合并：
  - 合并 C(0.2) 和 D(0.1)，生成新节点 CD(0.3)。
  - 队列更新为：
    - A: 0.4
    - B: 0.3
    - CD: 0.3
- 第二次合并：
  - 合并 B(0.3) 和 CD(0.3)，生成新节点 BCD(0.6)。
  - 队列更新为：
    - A: 0.4
    - BCD: 0.6
- 第三次合并：
  - 合并 A(0.4) 和 BCD(0.6)，生成最终节点 ABCD(1.0)。
生成编码：从根节点开始，为左分支赋值 0，右分支赋值 1。递归地为每个符号分配编码。

霍夫曼树结构如下：
```
        [1.0]
       /     \
  [0.4]       [0.6]
   /           /    \
 A(0.4)    B(0.3)   [0.3]
                       /  \
                    C(0.2) D(0.1)
```
详细步骤：
- 根节点 [1.0]：
  - 左分支：[0.4] 对应符号 A，编码前缀为 0。
  - 右分支：[0.6]，编码前缀为 1。
- 节点 [0.6]：
  - 左分支：B(0.3)，编码前缀为 10。
  - 右分支：[0.3]，编码前缀为 11.
- 节点 [0.3]：
  - 左分支：C(0.2)，编码前缀为 110。
  - 右分支：D(0.1)，编码前缀为 111。
最终编码表：

符号编码
A 0
B 10
C 110
D 111
解释：
- A：从根节点 [1.0] 走左分支到 A(0.4)，编码为 0。
- B：从根节点 [1.0] 走右分支到 [0.6]，再走左分支到 B(0.3)，编码为 10。
- C：从根节点 [1.0] 走右分支到 [0.6]，再走右分支到 [0.3]，然后走左分支到 C(0.2)，编码为 110。
- D：从根节点 [1.0] 走右分支到 [0.6]，再走右分支到 [0.3]，然后走右分支到 D(0.1)，编码为 111。

通过这些步骤，霍夫曼编码通过为高频率符号分配较短的编码，实现了数据的有效压缩。

2.1.4 编码效率计算

在上面的霍夫曼编码示例中，编码效率可以通过计算平均码长来衡量。平均码长的公式如下：

$L_{avg} = \sum_{i=1}^{n} p_i \times l_i$

其中：

( p_i ) 是符号 ( i ) 的出现概率。
( l_i ) 是符号 ( i ) 的编码长度。
( n ) 是符号的总数。

我们使用上面的霍夫曼编码结果进行计算：

符号 A 的概率 ( p_A = 0.4 )，编码长度 ( l_A = 1 )。
符号 B 的概率 ( p_B = 0.3 )，编码长度 ( l_B = 2 )。
符号 C 的概率 ( p_C = 0.2 )，编码长度 ( l_C = 3 )。
符号 D 的概率 ( p_D = 0.1 )，编码长度 ( l_D = 3 )。

代入公式：

$L_{avg} = (0.4 \times 1) + (0.3 \times 2) + (0.2 \times 3) + (0.1 \times 3)$

$L_{avg} = 0.4 + 0.6 + 0.6 + 0.3 = 1.9$

因此，霍夫曼编码的平均码长为 1.9，比起未编码的固定长度 2 位/符号（假设使用 4 种符号的情况）有显著的压缩效果。

2.2 香农-范诺编码(Shannon-Fano Coding)

2.2.1 原理

香农-范诺编码是一种基于符号概率的前缀编码方法。通过将符号排序并将符号集划分为两个概率相等或接近的子集，然后分别为每个子集分配“0”或“1”，生成各符号的编码。

2.2.2 编码过程

符号排序：将符号按概率从大到小排序。
概率划分：将符号划分为两个子集，使得每个子集的总概率相等或接近相等。
生成编码：为两个子集分别分配“0”或“1”，然后对每个子集递归进行编码。

2.2.3 举例

继续使用上面的符号 A, B, C, D，它们的频率为：

符号	频率
A	0.4
B	0.3
C	0.2
D	0.1

根据香农-范诺编码的原理，我们可以按照以下步骤来生成编码：

符号排序：首先，将符号按出现频率从大到小排序。

排序后的符号序列为：
- A: 0.4
- B: 0.3
- C: 0.2
- D: 0.1
概率划分：从符号集中选择一个切分点，将符号划分为两个子集，使得每个子集的总概率尽可能接近相等。
- 第一次划分：将符号 A 与 B, C, D 划分为两个子集。
  - 子集1：A: 0.4（总概率为 0.4）
  - 子集2：B, C, D（总概率为 0.6）
  - 为子集1分配编码 0，为子集2分配编码 1。
- 第二次划分：对子集2 B, C, D 继续进行划分，将符号 B 与 C, D 划分为两个子集。
  - 子集2.1：B: 0.3（总概率为 0.3）
  - 子集2.2：C, D（总概率为 0.3）
  - 为子集2.1分配编码 10，为子集2.2分配编码 11。
- 第三次划分：对子集2.2 C, D 进行划分，将符号 C 与 D 划分为两个子集。
  - 子集2.2.1：C: 0.2（总概率为 0.2）
  - 子集2.2.2：D: 0.1（总概率为 0.1）
  - 为子集2.2.1分配编码 110，为子集2.2.2分配编码 111。
生成编码表：根据上述划分过程，生成最终的编码表。

符号	编码
A	0
B	10
C	110
D	111

解释：

A 属于概率最大的子集1，直接分配编码 0。
B 属于子集2.1，分配编码 10。
C 属于子集2.2.1，分配编码 110。
D 属于子集2.2.2，分配编码 111。

因此，对于消息 “ABCD”，使用香农-范诺编码得到的编码序列为 010110111。

在这个示例中，香农-范诺编码和霍夫曼编码的最终结果一致，但过程和理论基础不同。香农-范诺编码通过概率划分生成前缀编码，而霍夫曼编码通过构建最优二叉树实现编码。

2.2.4 编码效率计算

在香农-范诺编码中，编码效率同样可以通过计算平均码长来衡量。香农-范诺编码的平均码长公式与霍夫曼编码类似：

$L_{avg} = \sum_{i=1}^{n} p_i \times l_i$

在前面的香农-范诺编码示例中，符号及其对应的概率和编码长度如下：

符号 A 的概率 ( p_A = 0.4 )，编码长度 ( l_A = 1 )。
符号 B 的概率 ( p_B = 0.3 )，编码长度 ( l_B = 2 )。
符号 C 的概率 ( p_C = 0.2 )，编码长度 ( l_C = 3 )。
符号 D 的概率 ( p_D = 0.1 )，编码长度 ( l_D = 3 )。

代入公式：

$L_{avg} = (0.4 \times 1) + (0.3 \times 2) + (0.2 \times 3) + (0.1 \times 3)$

$L_{avg} = 0.4 + 0.6 + 0.6 + 0.3 = 1.9$

因此，香农-范诺编码的平均码长也是 1.9，与霍夫曼编码的结果一致。香农-范诺编码的平均码长满足：

$\leq L_{avg} < H(X) + 1$

这里，信源熵 ( H(X) ) 的计算同样基于符号概率分布：

$-\sum_{i=1}^{n} p_i \times \log_2 p_i$

代入符号的概率值：

$\times \log_2 0.4 + 0.3 \times \log_2 0.3 + 0.2 \times \log_2 0.2 + 0.1 \times \log_2 0.1)$

$\approx 1.846$

因此，香农-范诺编码的平均码长 ( L_{avg} = 1.9 ) 比信源熵 ( H(X) \approx 1.846 ) 稍大，符合理论预期。

2.3 算术编码(Arithmetic Coding)

2.3.1 原理

算术编码是一种基于区间分割的编码方法。它通过将整个消息映射到一个数值区间来表示数据。每个符号都会将当前区间根据其出现的概率分割为更小的子区间，最终通过区间的大小来决定编码的长度。

2.3.2 编码过程

初始化区间：开始时，将整个区间设定为 [0, 1)。
逐符号缩小区间：
- 对于消息中的每个符号，根据该符号的出现概率，将当前区间划分为几个子区间。
- 每个子区间的大小与该符号的概率成比例。
- 选定该符号对应的子区间作为新的区间。
生成编码：当所有符号都被处理完毕后，最终的区间中任何一个数都可以作为消息的编码。通常选择区间的中点作为编码。

2.3.3 举例

假设我们要编码消息 “AB”，且符号 A 和 B 的概率分别为 P(A) = 0.6 和 P(B) = 0.4。

初始化区间：
- 初始区间为 [0, 1)。
编码第一个符号 A：
- 根据 A 的概率 0.6，将区间 [0, 1) 划分为两部分：
  - A 对应的子区间为 [0, 0.6)。
  - B 对应的子区间为 [0.6, 1)。
- 由于第一个符号是 A，我们选择区间 [0, 0.6) 作为新的区间。
编码第二个符号 B：
- 在区间 [0, 0.6) 上再进行划分，根据 B 的概率 0.4，将区间再次划分为两部分：
  - A 对应的子区间为 [0, 0.36)（因为 0.6 × 0.6 = 0.36）。
  - B 对应的子区间为 [0.36, 0.6)（因为 0.6 × 0.4 = 0.24，最终区间为 0.36 到 0.6）。
- 由于第二个符号是 B，我们选择区间 [0.36, 0.6) 作为最终的编码区间。
生成编码：
- 最终区间为 [0.36, 0.6)。
- 可以选择该区间内的任何数作为编码。通常选择中点 (0.36 + 0.6) / 2 = 0.48 作为编码。
- 0.48 的二进制表示为 0.011110...，根据精度要求可以截取一定的位数作为最终的算术编码结果。