音频信号编码基础
只有当信源产生的信号具有冗余时,才能对其进行压缩。下面介绍几种音频冗余的概念:
1 时域冗余度
幅度的非均匀分布:统计表明,语音中的小幅度样本比大幅度样本出现的概率要高。
样本间的关联:从语音波形的分析中可以看出,在相邻样本之间取样数据存在最大的相关性。如果语音信号取样速率提高,样本间相关性更强。
周期之间的相关:在特定的瞬间,某一声音往往只是有频带内少数频率成分起作用。当声音中只存在少数几个频率时,就会象波一样,在周期与周期之间存在着一定的相关性。
基音之间的相关:人类的声音分浊音和清音两类。浊音波形由声带产生称之为音调间隔或基音周期的周期冗余度,另外,浊音波形还展示了对应音调间隔的长期重复波形。
静止系数:语音本身就是一种冗余。
长时自相关函数:长时统计表明,8kHz的取样语音的相邻样本间,平均系数高达0.9。
2 频域冗余
- 非均匀的长时功率谱密度
- 语音特有的短时功率谱密度
3 人的听觉感知机理
- 人的听觉具有掩蔽效应
- 人耳对不同频段的声音的敏感程度不同,对低频端的比高频端的更敏感。
- 人耳对语音信号的相位变化不敏感。
音频编码的目的在于压缩数据。 通常数据压缩造成音频质量下降和计算量增加。在实施数据压缩时,要在音频质量、数据量、计算复杂度三方面进行综合考虑。
音频信号编码的分类
- 基于音频数据的统计特性进行编码——波形编码;
- 基于音频的声学参数进行编码——参数编码;
- 基于人的听觉进行编码。
音频信号的压缩编码/算法
1 基本原理
如同数字通信系统中一样,在多媒体计算机系统中,声音信号被编码成二进制数字序列,经传输和存储,最后由解码器将二进制编码恢复成原始的声音信号。
最简单的数字编码方法是对声音信号作直接的数/模(A/D)转换。
- 设计声音压缩编码系统考虑的因素:
输入声音信号的特点;
传输速率及存储容量的限制;
输出重构声音的质量要求;
系统的可实现性及代价。
- 声音信号的编码方式分类
波形编码方法、分析合成方法和混合编码方法。
2 脉冲编码调制(PCM)
脉冲编码(MPC)调制是最简单的波形编码技术。PCM方法中声信号的采样值被量化到N=2B个码字中的一个(B为量化位数),若声音信号的频带宽度为WHz,根据采样定理可知采样频率为2WHz,这样总的编码率为2WBbps。
PCM又可根据量化方式的不同,分为:均匀量化PCM、对数PCM和自适应量化PCM等。
3 线性预测编码(LPC)
LPC是根据过去已有的几个采样值的模型的线性组合来预测、推断现在的采样值,进而用实际采样值与预测采样值之差(预测误差)及线性预测系数进行编码。
4 自适应预测编码(APC)
APC基于LPC的原理,当预测系数是自适应地随声音信号变化时,就可以称作自适应预测编码。
5 频域编码
- 自适应变换编码(ATC)
- 子带编码(SBC)
6 混合型编码
混合型编码是将波型编码的高质量与参数编码的低数据速率结合起来的一种新型编码方法。
- 多脉冲线性预测编码(MPC)
- 码激励线性预测编码(CELPC)
音频信号压缩编码标准及质量评估
1 音频信号压缩编码标准
2 音频信号编码的质量及评估
音频的质量与频率范围有关。
质量分级:电话语音级、调幅广播级、调频广播级和宽带音频级等四级。
主观评估标准频率来度量,分为:5(优)、4(良)、3(中)、2(差)和1(劣)五个等级。