本文实现语音变速的方法是基于线性预测,有人问,时域做变速方法很方便,为何要用线性预测来做?
- 语音编码,得到每帧信号的lpc系数和基音频率,就能预测出语音。
- 该方法可算出共振峰等参数,方便做变调的时候,对共振峰进行调整。
- 通过LP-PSOLA算法,学习基音检测的原理和算法,方便开展更多工作。
一 .概述
1.1 语音变速属语音更改范畴,两方面研究:
1.声学参数,如共振峰频率,基频,主要由声道差异决定。
2.韵律学参数,如说话快慢,节奏,口音不同。
1.2 变速本质:
把语音在时间上缩短或者拉长,而语音的采样频率/基频/共振峰不改变。
如图,上半轴表示原始语音,下半轴表示变速后的语音。上半轴大圆点表示每一帧的起始位置,下半轴小圆点表示变速后的每一帧起始位置。
语音时间减少,语速增加,缩短语音帧数fn’比原帧数少,因此要对帧数fn进行插值。
缩短语音每一帧对应的原始信号的时间,并不是原始信号的时刻,因此要对基音周期进行插值。
同样要对线性预测系数进行插值。
二. 语音变速步骤
- 分帧/基因检测/计算lpc系数。
- 按照新的语音时长,对帧数fn插值为fn‘。
- 将ai系数转化称LSF参数,对LSF参数插值。
- 将插值后的LSF系数重构为1-fn’帧线性预测系数ai’。
- 用预测系数ai’和基音参数合成语音。
PS. 这里讲一下插值函数Interp1函数的使用:
MATLAB hep:1-D data interpolation (table lookup)
既然有interp1,那一定也有interp2/interp3,interp1用来对一维数组进行插值,但是,interp1也可用用来做二维数组的插值,也是一维一维地处理。
用框图表示流程:
三. MATLAB仿真结果
说明: 注意横坐标,原始信号得时间长度大概为2.5秒,速度放慢一倍,语音长度变为5秒,在相同采样频率fs = 8000Hz下,语音速度就变慢了。
参考文献:
[1] 宋知用. Matlab在语音信号分析与合成中的应用[M]. 北京:北京航空航天大学出版社:2013.