什么是变调?
一段声音可以理解为多种频率正弦波的叠加[1],而音调就是一段声音的主要频率。改变了主要频率,就是改变了音调——提高了主要频率,就是升调,反之亦然。
音频变调的几种方法
磁带机快进的时候播放,声音会变得非常刺耳,这就是升调的表现——我们可以粗略地理解为,当速度变了,那么频率也会改变。本文的“音频变调”算法有个前提,是“变调不变速”。与“变调不变速”算法相关的,自然是“变速不变调”算法。参考文献[2] 已经汇总了这两种算法。“变调不变速”有三类方法:时域法、频域法、参量法——但是不管哪一类方法,其本质都是“猜测”(或者叫估算)出“完美”变调后的声音波形。
“同步交叠相加方法”(Synchronized overlap-add method, SOLA) 是一种常见的时域法。在 SoX 中的 pitch 音效使用的就是这种方法。这种方法应该是计算复杂度最低的算法了,对于实时性要求高、计算能力差(如移动设备)的场景下可以考虑。
文献[3]是频域法的一个具体实现方式,其C++实现的代码也公开了出来(见文献[3]的链接)。频域法的主体思想是把频域中的幅度做整体平移(左移就是降调,右移同理),然后在恢复成时域信号。频域法需要做傅里叶变换或者小波变换等频谱变换,计算复杂度往往比时域法高。
相关开源软件
· SoX: http://sox.sourceforge.net/
· SoundTouch: http://www.surina.net/soundtouch/
· smbPitchShift.cpp : http://blogs.zynaptiq.com/bernsee/download/
参考文献(文中提及)
1. 叠加原理: https://en.wikipedia.org/wiki/Superposition_principle
2. 变速变调原理与方法总结: http://www.cnblogs.com/welen/p/3782896.html
3. Pitch Shifting Using The Fourier Transform: http://blogs.zynaptiq.com/bernsee/pitch-shifting-using-the-ft/
参考文献(文中未提及)
· Audio time-scale/pitch modification: https://en.wikipedia.org/wiki/Audio_time-scale/pitch_modification
· Pitch Shifting: http://www.katjaas.nl/pitchshift/pitchshift.html
· Guitar Pitch Shifter: http://www.guitarpitchshifter.com/algorithm.html
· Real-time pitch-shifting of musical signals by a time-varying factor using normalized filtered correlation time-scale modification (NFC-TSM):http://dafx.labri.fr/main/papers/p007.pdf
· Pitch shifting of voices in real-time: https://www.uvic.ca/coopandcareer/assets/docs/studentsalumni/report-Rahman446.pdf
· 分段语音时长规整算法: http://sxjs.cnjournals.cn/ch/reader/create_pdf.aspx?file_no=20070625&flag=1&journal_id=sxjs&year_id=2007
· Time and pitch scaling in audio processing: http://www.surina.net/article/time-and-pitch-scaling.html