(本文目前很简略,我有机会再完善。所以目前本文不适合大众阅读,除了文后列举的参考文献)
什么是变调?
一段声音可以理解为多种频率正弦波的叠加[1],而音调就是一段声音的主要频率。改变了主要频率,就是改变了音调——提高了主要频率,就是升调,反之亦然。
音频变调的几种方法
磁带机快进的时候播放,声音会变得非常刺耳,这就是升调的表现——我们可以粗略地理解为,当速度变了,那么频率也会改变。本文的“音频变调”算法有个前提,是“变调不变速”。与“变调不变速”算法相关的,自然是“变速不变调”算法。参考文献[2] 已经汇总了这两种算法。“变调不变速”有三类方法:时域法、频域法、参量法——但是不管哪一类方法,其本质都是“猜测”(或者叫估算)出“完美”变调后的声音波形。
“同步交叠相加方法”(Synchronized overlap-add method, SOLA) 是一种常见的时域法。在 SoX 中的 pitch 音效使用的就是这种方法。这种方法应该是计算复杂度最低的算法了,对于实时性要求高、计算能力差(如移动设备)的场景下可以考虑。
文献[3]是频域法的一个具体实现方式,其C++实现的代码也公开了出来(见文献[3]的链接)。频域法的主体思想是把频域中的幅度做整体平移(左移就是降调,右移同理),然后在恢复成时域信号。频域法需要做傅里叶变换或者小波变换等频谱变换,计算复杂度往往比时域法高。