语音信号处理第二章
语音信号处理第三章
语音信号处理第四章
语音信号处理第五章
语音信号处理第七章
语音信号处理第九章
语音信号处理第十章
语音信号处理第十二章
文章目录
1.数字化和预处理
数字化:带通滤波、放大及增益控制(AGC)、反混叠滤波、采样、A/D变换、PCM编码
预处理:预加重、加窗和分帧
1.1.数字化
1.1.1.预滤波
用途:
(1)抑制输入信号各频域分量中频率超出fs/2的所有分量(fs为采样频率),以防止混叠干扰
(2)抑制50Hz的电源工频干扰
预滤波是一个带通滤波器,范围是60~3400Hz,采样频率是8kHz
1.1.2.A/D变换
用途:将语音信号转换为二进制码
A/D变换中要对信号进行量化。量化不可避免地会产生误差,量化后的信号值与原信号值之间的差值称为量化误差,又称为量化噪声。量化间隔越小,量化噪声也就越小。
若信号波形的变化足够大,或量化间隔Δ足够小时,可以证明量化噪声符合具有下列特征的统计模型:
①它是平稳的白噪声过程
②量化噪声与输入信号不相关
③量化噪声在量化间隔内均匀分布,即具有等概率密度分布
每增加一个量化位数,量化信噪比增加6dB
并不是量化信噪比越高越好,还要考虑带宽能否承受
1.2.预处理
由于语音信号是一个非平稳过程,需要分帧成为短时平稳过程,才能使用处理平稳信号的技术
1.2.1.预加重
目的:提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。
1.2.2.加窗
原理:分帧是用可移动的有限长度窗口进行加权的方法来实现的,也就是用定长的窗函数ω(n)来乘s(n),从而形成加窗语音信号sω(n)=s(n)ω(n)
窗的类型:
在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等
汉明窗的主瓣宽度比矩形窗大一倍,即带宽约增加一倍。同时,其带外衰减也比矩形窗大一倍多,具有频谱泄露小的优点。矩形窗带外衰减很小,有较大的上下冲,会导致Gibbs效应,不能准确反映语音音素的频谱。矩形窗的谱平滑性能较好,但损失了高频成分,使波形细节丢失;而汉明窗则相反,从这一方面来看,汉明窗更适合频域分析,矩形窗更适合时域分析
窗长N:
采样周期TS = 1/fS
窗口长度N、采样频率fS和频率分辨率Δf之间存在下列关系:
Δf = fS/N
可见,采样频率一定时,Δf随窗口长度N的增加而减小,即频率分辨率Δf相应得到提高,但同时时间分辨率(1/Δf)降低,因此要合理选择窗长N:
1)N太大时,加窗相当于很窄的低通滤波器,反映波形细节的高频部分被滤除,短时能量随时间变化很小(过于平滑)。N太小时,短时能量变化急剧(不够平滑)。
2)一个语音帧内应包括2个以上的基音周期,通常在fS=10kHz时,N折中选择为100~200点合适(即10 ~ 20ms的持续时间)。
1.2.3.分帧
一般来说每秒的帧数约为33~100帧
分帧一般要采用交叠分段的方法,目的是为了使帧与帧之间平滑过渡,保持其连续性。
帧重叠:前一帧和后一帧的交叠部分
帧移:前后移动的距离。
帧长:一帧的长度
原语音信号长度L、帧数X、帧长N、帧移M的关系:
L=N+(X-1)M。一般来说