梳理一下各大平台使用的sample rate convert算法

西岸行者

已于 2022-04-19 12:41:26 修改

阅读量3.7k

点赞数

分类专栏：音频驱动文章标签：实时音视频

于 2022-04-10 11:25:37 首次发布

本文链接：https://blog.csdn.net/golfbears/article/details/123993625

版权

音频驱动专栏收录该内容

7 篇文章

订阅专栏

梳理一下各大平台使用的resample算法

前言
Smarc对Interpolation和Decimation的执著
CCRMA & speex
sox & deadbeef
WebRTC
ffmpeg
Secret Rabbit Code
参考

前言

转采样属于数字信号重建的范畴，整数倍的升降采样可以通过插值抽取+带限滤波的方法【1】，并且通过级联来实现任意比值的采样率转换。这里需要对奈奎斯特采样定理，以及数字信号时频关系有比较清晰的理解。还有一种方法是插值，插值的方法比较多，在参考里有一阶保持FOH、零阶保持ZOH、三次样条函数spline和sinc函数，引用的博文中有比较直观的分析和事例。那么在各大平台，最后都是用什么实现的resample重建呢？

Smarc对Interpolation和Decimation的执著

来自法国的Smarc的内核是经典的数字信号差值抽取方法，能够支持任意采样率，众所周知，48k到44.1k的互相转采样是个挑战，在SMARC method详细的讲述的算法的特点，通过因式分解和多相、多阶实现降低了FIR的阶数，提高了算法效率。简单的翻译一些文中的思想如下：
经典的香农插值抽取法虽然便于理解，但碍于为了实现非整数（有理数）比的转采样，滤波器级数可能长的无法用于实现，文中举了一个例子，可以这样理解 $\frac{44100}{48000}=\frac{147}{160}$ 那么两个频率的最小公倍数为： $44100 * 160 = 48000 * 147 = 7056000 = 7.056 M$
为了满足48000->44100的变换，满足截止频率22.05k的设计要求，需要FIR的阶数38560，这个抽头和延时是无法接受，这个计算是利用smarc内置的remez方法。smarc则采样了多级滤波器的设计思想，规避了长延时的问题，每一级采用很小的系数比，同时结合多相滤波的实现，进一步优化算法。对于降采样抽取：

经过低通滤波消除混叠频率后就可以抽取除想要的新采样。

CCRMA & speex

搜了一下外文网站，能够完整讲述插值重建的就是斯坦福大学的这篇Digital Audio Resampling Home Page，文中讲述了带限插值的原理。简单的翻译一下，根据奈奎斯特和傅里叶变换的知识，时域信号可以被重建：
$\hat{x(t)} \triangleq\sum_{n=-\infty}^{\infty}x(nT_s)h_s(t-nT_s)\equiv=x(t)$
这里的 $h_s(t)\triangleq sinc(F_st)\triangleq \frac{sin(\pi F_st)}{\pi F_st}$
$s i n c$ 函数的神奇就不赘述，但这个公式这么干是不行滴，因为正负无穷谁也受不了，所以还得加个窗，减小纹波和过冲。文中利用凯撒窗来评估对截取5个过零点的sinc函数卷积的频响比较，截取拼接了一下，效果变化很明显。
在这里插入图片描述如果要利用这个公式进行新采样率 $F_s^\prime$ 的抽取，可以改写： $\begin{aligned} x(nT_s^\prime)&=\sum_{n=-\infty}^{\infty}x(nT_s)h_s(nT_s^\prime-nT_s)\\ &=\sum_{n=-\infty}^{\infty}x(nT_s)h_s(n(T_s^\prime-T_s)) \end{aligned}$ 据此，首先准备sinc函数的样点，找了一张图：
在这里插入图片描述
如果能对准备好的 $h_s(t)$ 样点进行插值，那么就可以根据公式求出累加后的新采样点 $x(nT_s^\prime)$ ，这里假设 $\rho=\frac{F_s^\prime}{F_s}$ ， $\rho$ 小于1意味着降采样， $\rho$ 大于1则是升采样。这相当于设计一个低通滤波器，那么这个滤波器实际上只需要存储半边的系数。那么剩下来的问题就是这个插值如何计算了。原文写的很节略，刚开始看的云山雾绕，不如先回归公式，假设就使用一个矩形窗，截断无限长的冲激响应。 $\begin{aligned} x^\prime(n)&\triangleq\sum_{n=-N}^{N}x(n)h_s(nT_s^\prime-nT_s)\\ &\triangleq\sum_{n=-N}^{N}x(n)h_s(n(T_s^\prime-T_s))\\ &\triangleq\sum_{n=-N}^{N}x(n)h_s(n+\frac{(T_s^\prime-T_s)}{T_s}) \end{aligned}$
上面这个卷积不是因果系统，这点跟插值抽取一样的特性。只要输入 $2 N + 1$ 个输入序列，同时能求得偏离 $h_s(n)$ 的插值，即可以算出来转采样之后的点。具体实现细节不追了。

sox & deadbeef

从它github主页上的描述

 for real-time resampling, libsoxr may have a higher latency
than non-FFT based resamplers.  For example, when using the `High Quality'
configuration to resample between 44100Hz and 48000Hz, the latency is
around 1000 output samples, i.e. roughly 20ms (though passband and FFT-
size configuration parameters may be used to reduce this figure).

推测这是个频域的转采样算法，据说是被deadbeef采用的，但实时性一般，