2.1.2语音信号的可压缩性


语音数据压缩是以香农提出的以熵为基础的信源编码理论为依据的:信源的
熵是其所含信息量的度量,只要信号的传输速率大于信源的熵,就说明数据还有
冗余,因而可以对其进行压缩。根据统计分析结果,语音信号中存在着多种冗余
度,其最主要的部分可以从时域和频域来考虑[11]。
1.时域信息冗余度
(1)幅度的非均匀分布
统计表明,语音中的小幅度样本出现的概率很高[10][13]。又由于通话中必然有
间隙,所以更出现了大量的低电平样本。此外,实际讲话信号的功率电平也趋向
于出现在编码范围的较低电平端。因此,语音信号取样值的幅度分布是非均匀的。
(2) 样本间的相关
对语音信号波形的分析表明,取样数据的最大相关性存在与邻近样本之间。
当取样频率为8kHz时,相邻取样间的相关系数大于0.85;甚至在相距10个样本
之间,还可有0.3左右的数量级。如果取样速率提高,样本间的相关性更强。因而
根据这种较强的一维相关性,利用N阶差分编码技术,可以进行有效的数据压缩。
2.频域信息冗余度
(1) 非均匀的长时功率谱密度
在相当长的时间间隔内进行统计平均,可得到长时功率谱密度函数,其功率
谱呈现强烈的非平坦性。从统计的观点看,没有充分利用给定的频段,或者说有
着固定的冗余度。特别地,功率谱的高频能量较低,这恰好对应于时域上相邻样
本间的相关性。此外,可以看到,直流分量的能量并非最大。[10]

(2) 语音的短时功率谱密度
语音信号的短时功率谱,在某些频率上出现峰值,而在另一些频率上出现谷
值。这些峰值频率,也就是能量较大的频率,通常称为共振峰频率。此频率不止
一个,最主要的是第一个和第二个,由他们规定了不同的语音特征。另外,整个
谱也是随频率的增加而递减的。更重要的是,整个功率谱的细节以基音频率为基
础,形成了高次谐波结构。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值