音频处理中的变调和时间拉伸（一）

最新推荐文章于 2024-05-27 11:18:09 发布

首席测试官

最新推荐文章于 2024-05-27 11:18:09 发布

阅读量4.4k

点赞数 1

分类专栏： AI与音乐文章标签：算法

原文链接：https://www.surina.net/article/time-and-pitch-scaling.html

版权

AI与音乐专栏收录该内容

5 篇文章

订阅专栏

介绍

很多用过磁带或者塑胶唱片的人都会对于一种现象感到熟悉：当我们快放或者慢放音频的时候，如果我们用两倍速度快放，除了会使得音频播放时间减少一半，还会使得音高升高一个八度，听起来音频中的人声会很像卡通动画人物的声音。同时，如果慢放会使得播放时长增长并且降低相应比例的音高。

以前使用模拟音频录音技术的时候，这种现象可以通过设置错误的播放速度来复现。现在，在数字信号处理领域，同样的现象可以通过重采样来实现。

重采样会同时改变音频的播放时长与音高，但是有时人们会有需求：只改变音高或者只改变播放时长。这类技术会被称为：

time/pitch scaling,
time/pitch shifting，
time stretching.

应用

Time scaling 可以慢放音乐速度，方便大家跟着跳舞或者拍视频再或者练习乐器。慢放讲话录音可以帮助人们转写，或者学习语言，盲人可能会使用快放来播放一些音频书籍来节约时间。视频网站上的倍速播放页需要音频跟着加倍但是不会变调。

类似的，在卡拉OK或者练习唱歌的时候，调整音乐的音调或者key，可以更好的匹配演唱者的声线。或者用来调音，百万调音师你们懂得。

最后，有些人可能想要通过改变他们自己声音的音调来实现身份隐藏。

实现方式

目前有两种实现上述技术的基本方式，即在时域处理或者频域处理

时域处理方式直接操作采样数据，比如后面要介绍的SOLA算法。时域处理的优势在于实现非常直接(straight-forward)，因为音频数据处理时的采样格式跟它播放时或者录制时相同。缺点在于会产生一些人造回响导致失真，并且随着更大的时间调整，失真更明显。比如时间伸缩超过15%时。

频域处理是将采样声音转换为短时的频率/振幅成分然后在频域信息上来做伸缩，相位声码器是这类方法的一个典型。频域处理的优势在于可以支持更复杂的声音调整给出更好的听感，因为人类听力根本上只是基于频率的。

然而，由于它们明显的强大和优雅，频域处理实现起来更加复杂，计算复杂度更高。所以受限于计算资源，比如cpu速度和内存等。

SOLA

SOLA即 Synchronous-OverLap-Add，同步交叠相加法。通过将声音数据切成一系列的很短的长约几十到几百毫秒的片段，然后将这些片段通过一定的手段：跳过某些内容或者重复某些内容，重新排列起来达到比原始音频更长或者更短的播放时间。使用相同思路的算法还有TDHS(Time-Domain Harmonic Sampling)，WSOLA和PSOLA，他们的区别在于实现细节。

为了避免在两个片段连接处的声音出现过于明显的断裂感，两个片段会有一定的重叠部分，所以声音的振幅从一个片段到另一个片段是渐变的，所以SOLA名字中有OverLap-Add部分。

最简单的SOLA实现可以使用统一的片段长度，然后每隔一段均匀的间隔来取一段片段。如果你想让声音缩短10%的长度，假设我们使用100毫秒(+叠加的长度)的片段长度，然后以110毫秒为间隔，从原始音频中取片段，然后将这些片段通过叠加连接起来，你就获得了想要的效果。同样的如果要延长10%的长度，选择100毫秒的片段，然后每隔90毫秒取一个片段，最后连接起来即可。是不是很简单呢？

然而，实际应用中的SOLA实现起来并没有那么简单。选取片段的时候不管片段内容的话，即使采用了渐变叠加的方法还是会由于过大的不连贯而出现噪音。（注：这里的不连贯是指的采样点不构成一个波形，虽然其实采样点实际上是连贯的，但是不构成波形的话，发出的声音也是噪音）

实现考虑

为了满足音质要求，SOLA在实现上需要在选择片段时，使得相邻片段之间交叠部分尽量相似。

实际上，音频流每次处理一个片段，为了使得相邻两个片段之间更匹配，在选择下一个片段的时候，可以在一个合适的窗口范围内来寻找。一种寻找最匹配片段的方法是通过计算上一个片段结尾部分和窗口内的待选片段的开头部分的互相关性，具有最高互相(cross-correlation)关值的两个片段的头尾是最相似的。这些片段最后通过交叠的方式连接在一起，形成了新的音频流，并且与原始的音频流长度不同。

SOLA的总体算法如下图所示。图中坐标轴的范围是可以任意设定的，所代表的时间单位仅做示意。在算法执行过程中，原始的音频会被切成合适长度的若干片段。新的片段会在与前一片段合适的间隔后被选出，从而获得想要的伸缩效果。

在图1中，第一个片段从0开始，然后长度是7个时间单位，首尾各有一个时间单位的交叠部分。每隔9个时间单位取一个片段，最终的时间伸缩比例为 (7-2)/9 = 0.555，也就表示相对原始音频缩短了44.5%的时长。