音频编码基础

最新推荐文章于 2024-09-21 00:32:42 发布

天涯角落

最新推荐文章于 2024-09-21 00:32:42 发布

阅读量1.7k

点赞数

分类专栏：数字电视相关技术文章标签： compression microsoft signal encoding layer 电话

数字电视相关技术专栏收录该内容

18 篇文章 0 订阅

订阅专栏

1. 数字音频的文件格式

    文件扩展名　说明
    ---------- ------------------------------------------------------------
    .PCM 　     PCM 数据序列
    .VOC        Creative 公司的波形音频文件格式。
    .WAV        Microsoft 公司的波形音频文件格式。
    .SND        NeXT 计算机的波形音频文件格式。
    .AIF        Apple 计算机的波形音频文件格式。
    .MID        MIDI 文件格式。
    .RMI        Microsoft 公司的 MIDI 文件格式。它可以包括图片、标记和文本。

2. 音频编码基础
   从信息保持的角度讲，只有当信源本身具有冗余度，才能对其进行压缩。根据统计分析结果，语音信号存在
   着多种冗余度，其最主要部分可以分别从时域和频域来考虑。另外由于语音主要是给人听的，所以考虑了人
   的听觉机理，也能对语音信号实行压缩

   压缩编码的可能性
    - 声音信号中包含有大量的冗余信息，
    - 可以利用人的听觉感知特性,
    - 可以利用语音信号的生成机理，

   语音压缩编码方法分类
    基于感知模型的压缩 (波形编码 waveform codecs)
    – benefits : generic
    – drawbacks : highest compression rates are difficult to achieve
    – Examples : PCM, ADPCM, Subband
       CCITT G.711 PCM   64kb/s
       CCITT G.721 ADPCM 32Kb/s
       CCITT G.726 ADPCM 48, 32, 24, 16 Kb/s
    基于产生模型的压缩 (参数编码,源编码)
    – benefits : highest possible compression
    – drawbacks : signal source(s) must be know
    – Examples : vocoder
    混合编码 Hybrid compression
    – Examples : CELP

   子带编码(Sub-band coding)基本原理：
    – 利用带通滤波器(BPF)把声音信号按频率范围划分成几个组成部分(子频带，子带)
    – 低频部分能量较集中，量化精度要高，取样频率可稍低。
    – 高频部分是摩擦音、噪音，量化精度可低些，但取样频率要稍高。
    – 不同子频带作不同的ADPCM编码处理，然后再复合在一起。

3. 声音信号的数字化
    - 取样 sampling
      * 原理：用一定速率的离散取样序列可以代替一个连续的频带有限的信号而不丢失任何信息。
      * Nyquist sampling theorem “For lossless digitization, the sampling rate should be at least
        twice the maximum frequency response.”
    - 量化 quantization，AD conversion
      * what? 使用有限位数的整数来近似地表示实型量的样本值，也称为 A/D conversion。
      * 量化精度：用多少个二进位来表示每一个样本，也称为量化位数。声音信号的量化位数一般是 4/6/8，
        12或16 bits 。
      * 量化位数的多少决定了动态范围和噪声大小.
    - 编码 encoding
      数字化声音举例

      质量采样频率(kHz) 样本精度(bit) 声道数数据率      频率范围(Hz)
      ---- ------------- ------------- ------ ---------- ------------
      电话 8              8              1       8 KB/s      200～3,400
      AM    11.025         8              1       11.0 KB/s   50～7,000
      FM    22.050         16             2       88.2 KB/s   20～15,000
      CD    44.1           16             2       17*** KB/s 20～20,000
      DAT   48             16             2       192.0 KB/s 20～20,000

4. 声音还原
   - 解码 Decoding
   - 解量化 Dequantization (D/A conversion)
   - 插值 Interpolation

   重建声音的质量评价(客观法)
   * 声音质量的客观度量主要用信噪比SNR(signal to noise ratio)来度量。
      SNR＝10 log10(s2/n2)
     其中，s为原始声音信号，n为原始声音信号与重建声音信号的误差信号)
   * 计算并不复杂，但与人对声音的感知不完全一致。

   重建声音的质量评价(主观法)
    分数质量级别        失真程度
    ---- -------------- --------
    5     优(Excellent)   无察觉
    4     良(Good)        (刚)察觉但不讨厌
    3     中(Fair)        (察觉)有点讨厌
    2     差(Poor)        讨厌但不反感
    1     劣(Bad)         极讨厌(令人反感)

5. MPEG-1音频编码的原理(MP3)
   - 将audio信号分割成32个不同的子频带；
   - 充分利用听觉系统的掩蔽特性(主要是利用频域掩蔽特性), 保留能被感知的信号而扔掉被掩蔽的信号；
   - 计算出以频率为自变量的噪声掩蔽阈值(masking threshold)，按照信掩比 SMR来决定分配给子带信号的量
     化位数，控制和调节各个不同子频带的量化编码。

   支持4种不同模式:
    - 单通道，
    - 双通道(二个独立的声音信号编码在一个比特流中)，
    - 立体声(左、右声道的信号编码在一个比特流中)，
    - 联合立体声(利用左、右声道信号的相关性，降低输出比特流的码率)。

MPEG-1音频压缩的层(layer)

MPEG-1音频压缩分为3个不同的层, 基本模型相同，层号越高,性能越好,也越复杂。高层次的解码器能对所有
低层比特流数据进行解码。在保持CD立体声音质的前提下，3个层次的编码效率(压缩倍数)和输出码率:

     编码器层号    压缩方法压缩倍数输出码率      复杂度延迟时间(ms) 应用
     ------------ -------- -------- ------------ ------ ------------ -------------------
     层1(Layer 1) MUSICAM   1: 4      384 kbps      较简单 19-50         小型数字合式磁带
     层2(Layer 2) MUSICAM   1: 6-8    256-192 kbps 中等    35-100        数字音频广播, VCD等
     层3(Layer 3) ASPEC     1: 10-12 128-112 kbps 最复杂 59-150        ISDN上的声音传输

   MPEG-1音频压缩(层1)
    - 多相滤波器组把输入信号变换到32个子带中去, 子带是线性划分的;
    - 每帧包含384个样本，32个子带分别输出12个样本；
    - 心理声学模型仅使用频域掩蔽特性;
    - 以12个样本为一组，“量化和编码器”根据SMR确定每个子带的比特分配，然后按比特分配进行量化和编码。
    - 被高度掩蔽的子带不需要进行编码。

   MPEG-1音频压缩(层 2 )
    - 每帧有1152个样本, “量化和编码器”对一个子带中的三个样本组(3x12个样本)一起进行编码；
    - 除了使用频域掩蔽特性之外还利用了时间掩蔽特性；
    - 在低、中和高频段对比特分配作了限制(低频段子带:4位，中频段子带:3位，高频段子带:2位)，对比例因子
      和量化样本值的编码也更紧凑。

   MPEG-1音频压缩(层3)
    - 使用比较好的临界频带滤波器，把声音频带分成非等带宽的子带，
    - 心理声学模型除了使用频域掩蔽特性和时间掩蔽特性之外，还考虑了立体声数据的冗余，
    - 使用了霍夫曼(Huffman)编码器。

   多相滤波器组
    - 多相滤波器组把输入信号变换到32个频域子带中去。子带的划分是非线性的，因为人耳的听觉特性是以“临
      界频带”来划分的，在一个临界频带之内，很多心理声学特性都是一样的。

   MPEG-1 声音(层1/2)编码原理
    - MUSICAM(Masking pattern adapted Universal Subband Integrated Coding And Multiplexing)
      声音掩蔽特性自适应的通用子带综合编码和复合技术

   MPEG-1 声音(层3)编码原理
    - ASPEC(Adaptive Spectral Perceptual Entropy Coding of high quality musical signal)
      高质量音乐信号自适应谱感知熵编码(技术)
    - 使用ASPEC(Adaptive Spectral Perceptual Entropy Encoding)和OCF(Optimal Coding In The Frequency
      domain)导出的算法，
    - 使用了改进离散余弦变换MDCT(modified discrete cosine transform)，对层1和层2的滤波器组的不足作了
      一些补偿。MDCT把子带的输出在频域里进一步细分, 以达到更高的频域分辨率。

   在各种速率下MP3的性能比较
     20-20kHz 的全频带数字声音(即44.1kHz取样的, 量化精度为16位的数字声音)，若采用MP3编码，在各种不同
     数据速率下其输出(简称为MP3数字声音)所能达到的声音质量：

      数据率(kb/s) 压缩倍数声音质量      声音带宽(kHz) 声道
      ------------ -------- --------      ------------- ----
      8             96:1      电话          2.5            单
      16            48:1      优于短波      4.5            单
      32            24:1      优于调幅广播 7.5            单
      56-64         26-24:1   相当调频广播 11             立体
      96            16:1      接近CD        15             立体
      112-128       14-12:1   CD            >15            立体