2.1.2语音信号的可压缩性

最新推荐文章于 2023-12-24 13:45:30 发布

watchen

最新推荐文章于 2023-12-24 13:45:30 发布

阅读量1.3k

点赞数

分类专栏： dsp

dsp 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

语音数据压缩是以香农提出的以熵为基础的信源编码理论为依据的：信源的
熵是其所含信息量的度量，只要信号的传输速率大于信源的熵，就说明数据还有
冗余，因而可以对其进行压缩。根据统计分析结果，语音信号中存在着多种冗余
度，其最主要的部分可以从时域和频域来考虑[11]。
1．时域信息冗余度
(1)幅度的非均匀分布
统计表明，语音中的小幅度样本出现的概率很高[10][13]。又由于通话中必然有
间隙，所以更出现了大量的低电平样本。此外，实际讲话信号的功率电平也趋向
于出现在编码范围的较低电平端。因此，语音信号取样值的幅度分布是非均匀的。
(2) 样本间的相关
对语音信号波形的分析表明，取样数据的最大相关性存在与邻近样本之间。
当取样频率为8kHz时，相邻取样间的相关系数大于0.85；甚至在相距10个样本
之间，还可有0.3左右的数量级。如果取样速率提高，样本间的相关性更强。因而
根据这种较强的一维相关性，利用N阶差分编码技术，可以进行有效的数据压缩。
2.频域信息冗余度
(1) 非均匀的长时功率谱密度
在相当长的时间间隔内进行统计平均，可得到长时功率谱密度函数，其功率
谱呈现强烈的非平坦性。从统计的观点看，没有充分利用给定的频段，或者说有
着固定的冗余度。特别地，功率谱的高频能量较低，这恰好对应于时域上相邻样
本间的相关性。此外，可以看到，直流分量的能量并非最大。[10]

(2) 语音的短时功率谱密度
语音信号的短时功率谱，在某些频率上出现峰值，而在另一些频率上出现谷
值。这些峰值频率，也就是能量较大的频率，通常称为共振峰频率。此频率不止
一个，最主要的是第一个和第二个，由他们规定了不同的语音特征。另外，整个
谱也是随频率的增加而递减的。更重要的是，整个功率谱的细节以基音频率为基
础，形成了高次谐波结构。