1.语音信号的数字化和预处理:
数字化包括放大、增益控制、抗混叠滤波、采样、AD转换、编码(PCM编码);预处理包括预加重、加窗、分帧。在所有这些之前要把语音信号在一段音频中找出来,即端点检测。
①预滤波:滤除高于二分之采样频率的部分,防止混叠;抑制50Hz的电源工频干扰。故预滤波为带通滤波器--对于绝大多数语音编译码器,上截止频率3400Hz,下截止频率60~100Hz,采样频率8kHz;在要求较高的场合中上截止频率4500Hz或8000Hz,下截止频率60Hz,采样频率10kHz或20kHz。
预滤波、采样后,要进行量化编码。当信号波形变化足够大或量化间隔足够小时,量化噪声(量化误差)符合具有以下特征的统计模型:平稳白噪声、与输入信号不相关、在量化间隔内均匀分布。
量化器中每增加一个比特的字长,输出信噪比会增加6dB。7bit的字长那,输出信噪比35dB,此时语音质量已满足一般通信需求。而研究表明语音波形的动态范围达55dB,因此实际上常用12bit量化,以补偿动态变化。
②预处理:已数字化的语音信号序列将一次存入一个数据区,在语音信号处理中一般用循环队列的方式存储这些数据。语音信号的平均功率受到声门激励和口鼻辐射的影响,高频段在800Hz以上按6dB/倍频程跌落,因此在预处理时预加重,提高高频部分,使得整个语音信号频谱变得平坦。预加重一般是一阶的数字滤波器:
预加重后就要进行加窗分帧:可以连续分段也可以交叠分段以使得平滑过渡,保证连续性:
常用的窗是矩形窗和汉明窗;窗的形状要求是时间窗两端坡度尽量小,
2.语音信号的时域分析:
① 短时能量:所有语音帧信号的平方和为短时能量,但其对高电平敏感,故有时取短时幅度函数和作为能量。
②短时过零率:在实际求过零率参数之前为防止工频干扰,会增设抗混叠滤波器
③短时相关分析
④短时平均幅度差函数:替代自相关函数进行语音分析。
3.语音信号的频域分析:
①短时傅里叶变换,短时谱
②短时谱的临界带特征矢量
4.语音信号的倒谱分析:
同态处理实现--同态滤波--解卷积。求倒谱特征参数的方法:线性预测、同态分析。
①同态分析:将非线性问题转换为线性来处理。语音信号可视为声门激励信号和声道冲激响应卷积得到的。同态系统模型:
特征系统注解:将输入的时域卷积进行傅里叶变换得到频域的乘积信号,取对数得到相加信号,傅里叶反变换输出。