数字延时网络混响算法研究（FDN）

[](){}

已于 2022-03-12 15:50:48 修改

阅读量2.1k

点赞数 2

分类专栏：音频算法混响 ReverberRation 文章标签：音视频

于 2022-03-12 15:48:46 首次发布

本文链接：https://blog.csdn.net/liuderong0/article/details/122305507

版权

音频算法同时被 3 个专栏收录

4 篇文章 2 订阅

订阅专栏

混响

2 篇文章 0 订阅

订阅专栏

ReverberRation

1 篇文章 0 订阅

订阅专栏

混响在音乐制作，环境声学仿真等场景可以带来更真实的声音体验，其实现方式主要有物理模拟、采样混响、人工混响三种实现方式。物理模拟由于其计算量较大，实际落地场景不算太多，采样混响的实现简单，但不够灵活，种类受限，人工混响作为发展最早的一种，由于其计算量小，实现简单，在实际应用中非常广泛，缺点就是效果上不够逼真，但可以足以支撑普通的调音、混音需求。

人工混响中比较流行的有两种，一种是基于Schrocder和Moorer算法的实现，另一种就是FDN，本文是FDN早期的论文翻译，希望能对读者带来一定的帮助。

原文链接：Digital Delay Network For Designing Artificial Reverberators.(Jean-Mara JOT)

摘要

在人工混响器的设计时，一个关键点是如何避免短时瞬态响应产生的共振，一般来说通过确保每一个窄频带中的所有谐振具有相同的衰减时间来解决该问题。这种情况似乎等同于为每个延迟提供频率相关的衰减，类似于空气中的吸收，而与混响器结构无关。此外，还描述了与系统串联的音调校正器的设计，允许单独控制衰减特性和频率响应，因此产生了用于设计模拟后期单声道混响的多反馈“混响滤波器”的通用方法，结论中简要提到了早期响应和双耳方面的一次性改进。

0. 简介

人工混响器用于录音棚和电影制作时添加混响效果，或用户修正听音室的效果。早期的模拟设备——使用弹簧或板——在过去十年中已被数字单元所取代，这些单元实时计算以处理输入信号（转换为数字形式）。自 60 年代初 Schroeder 的开创性工作以来，文献中已经提出了多种基于递归数字延迟网络的算法[1]-[5]，即使有大量的延迟模块或随时间变化的延迟长度（如 [3] 中所建议的），通常也很难消除不自然的共振，这会导致通常被称为“金属”的特征声音。在 Schroeder 的并行梳状滤波器混响器 ([1], [2]) 的框架内，提出了一种控制衰减特性的技术，重点是系统响应的模态分解。然后，研究了多反馈系统的一般特性，允许将该技术扩展到任何递归延迟网络，这为增加混响器响应中回声密度的问题提供了低成本的解决方案。

1. 混响滤波器

实时人工混响器

从声源到听者之间存在多条声学路径，导致形成了混响过程的密集回声模式。准确的模拟意味着要考虑许多物理因素：墙壁和障碍物的几何和声学特性、源和接收器的位置和方向性模式……计算要求仍然超出了当今硬件实时实现的范围。假设所有物理现象都是线性的，混响过程完全由双耳脉冲响应来描述。为了模拟普通房间，输入信号与测量或计算的脉冲响应的实时卷积也需要非常大的处理能力。然而，尽管对于某些应用（回声消除）来说非常精确的模拟是必要的，但为了达到令人信服的人工混响效果，这种精度并不是必需的。在这里，我们的目的是实现在感知上与真实混响没有区别的实时人工混响。

混响滤波器的感知要求

已经进行了许多心理声学研究，以提出描述听音室声学质量的标准，首先是 Sabine 混响时间的定义。自 Barron [6] 的工作以来，在混响过程中区分两个声相已成为普遍用法：第一次反射（大约是脉冲响应的前 80 毫秒）和后期混响（衰减的剩余部分）。早期响应由离散回波组成，其时间和幅度分布在很大程度上取决于房间的形状以及源和接收器的位置。这些回声在主观空间印象中起着关键作用。相比之下，后期混响本身更适合于统计描述，并且可以被视为外壳本身的特征，与源和接收器的位置无关。这些观察证明了设计程序的合理性，首先，设计一个“混响过滤器”应该模拟晚期单声道混响。然后，考虑了双耳方面，并研究了提高早期响应真实性的解决方案，这在早期的工作中 ([2], [3])，涉及房间中声音传播的物理建模。最近的工作提出了数量可控的房间声学质量的独立心理声学标准 [7]、[8]。单就后期单声道混响而言，表示6个独立的命令参数应该足以控制混响滤波器：混响电平和混响时间必须与频率相关并分别控制，在三个频段中。

梳状滤波器和全通滤波器的感知比较

梳状滤波器和全通滤波器 ([1], [2]) 是单延迟 IIR 滤波器，仅在全通滤波器的情况下增加了直接路径（图 1）。 Schrocder [1] 注意到，这种简单的修改足以使全通滤波器具有平坦的频率响应（对于时间响应中初始脉冲的特定幅度）。在固定输入的情况下信号，全通滤波器消除了梳状滤波器引起的强烈着色。然而，全通滤波器对短暂瞬态的响应仍然揭示了两个主要缺点： a) 时间响应中的“回声密度”不够高（导致“颤动”的声音）。 b) 梳状滤波器的音色仍然存在。通过聆听脉冲响应本身进行比较，可以清楚地观察到这一点。效果很大程度上取决于反馈增益 g 的大小。需要注意的是，当g的幅度接近1（稳定极限）时，全通滤波器的脉冲响应降低到初始脉冲（幅度-g，而第二个脉冲幅度为1-g2，（图） . lb) ) 在这种情况下，aU 通滤波器对输入信号根本没有影响！对于较小的 g 幅度，在全通滤波器的脉冲响应结束时可以听到梳状滤波器的音色，而对于 [g [= 1/(_-, 很难听到这两者之间的差异通过只听他们的脉冲响应来过滤。这个结果并不奇怪，因为除了第一个脉冲之外，两个时间响应是相同的，如图 1 所示。这些观察说明了输入信号对听力测试的影响，并表明聆听脉冲响应本身为评估混响器的质量提供了有用的信息。可比较的测试包括沿脉冲响应运行短时傅立叶变换（声波图），如 [5] 中所建议的。

Schroeder并联梳状滤波器结构

为了在避免着色的同时提高“回波密度”（脉冲响应中每秒的回波数），Schrocder 提出了上述单元滤波器的两种基本组合：全通滤波器的串联组合和梳状滤波器的并联组合。

串联全通滤波器（图 2）产生一个新的全通滤波器（具有平坦的频率响应）。它还沿脉冲响应产生回声密度的累积，其方式类似于真实房间中发生的情况。不幸的是，正如 Moorer [2] 所报告的那样，在对短暂瞬变的响应中仍然存在不自然的着色。使用并行梳状滤波器（图 3），无法实现平坦的频率响应。然而，如果频率响应表现出足够多的每赫兹峰值，由于所有梳状滤波器的共振增加，它变得更接近真实房间的频率响应。更有趣的是，如果所有单元梳状滤波器的混响时间相等，即使响应脉冲声音，单个梳状滤波器的音色也会消失。这将在下面通过分解系统响应在其各个本征模式上进行研究。

2. 并联梳状滤波器：衰减特性的控制

并联梳状滤波器的极点研究

图1a所示梳状滤波器的传递函数可以写成：

$C\left ( z \right ) = \frac{g}{z^{m} - g} = \frac{1}{m}\cdot \sum_{k=0}^{m-1}\frac{z^{k}}{z-z^{k}}$ (1)

极点 $z^{k}(0\leqslant k\leqslant m-1)$ 由 $z^{k} = \gamma \cdot e^{j\omega _{k}}$ 定义。其中 $\gamma = g^{\frac{1}{m}}$ , $\omega _{k}=2k\pi /m$ 。通过逆 z 变换，这会产生脉冲响应：

$C(nT) = \frac{1}{m}\cdot \sum_{k=0}^{m-1}z_{k^{n}}$ 当 $n\geqslant 0$ （2）

通过将共轭极点对分组，该响应可以表示为指数衰减正弦Yd（sifg < 1）的总和，形成一个谐波模式fresonan ftrequencie 如图4a所示，本征模式的衰减时间 - 由相关极点的大小决定 - 都是相等的（或者它们的激发是相等的）。当 P 个这样的梳状滤波器并联时，系统传递函数变为：

$C(z) = \sum_{p=0}^{P-1}\frac{g_{p}}{z^{m_{p}}-g_{p}}=\sum_{p=0}^{P-1}\sum_{k_{p}=0}^{m_{p}-1}\left [ \frac{1}{m_{p}}\cdot \frac{z_{k^{p}}}{z-z_{k^{p}}} \right ]$ (3)

响应来自所有梳状滤波器的本征模式之和。如果延迟不相称，则所有谐振频率都是不同的（除了 $\omega =0$ 或 $\omega =\pi$ ，并且谐振总数等于以样本表示的延迟长度总和的一半。

避免不自然的共振：两极的大小相等

如果某些共振的衰减比其他共振慢，它们将在脉冲响应结束时突出，在本例中显示特定梳状滤波器的音色。为了避免任何此类干扰，我们必须确保所有模式具有相同的衰减时间，即所有系统极点的幅度相同。对于并行梳状滤波器，这会产生以下条件：

$\gamma =g_{p}^{^{\frac{1}{m_{p}}}}$ p为任意值（4）

这是所有梳状滤波器的反馈增益之间的关系，取决于延迟长度的选择。如果满足这个条件，就会得到一个类似于图 5 所示的脑电图。响应的典型模态分解如图 4b 所示。

频率密度

条件（4）保证脉冲响应的音色沿衰减保持不变。然而，由于等式（3）中的归一化系数 $\frac{1}{m_{p}}$ ，具有较长延迟的梳状滤波器会产生具有较弱权重的特征模。因此，对于相同的“模态密度”（每赫兹的平均共振数），如果延迟长度保持在一个接近的范围内，则感知度会更低（这可以解释为什么 Schroeder 提出大约 1:1.5 [1]）。这建议引入（理论）“模态密度”和（感知的）“频率密度”之间的区别（后者总是低于模态密度）。至少有两种检测频率密度不足的方法： -对脉冲输入信号的响应将产生特定模式的“振铃”或成对模式的跳动。

对准静态输入的响应会为某些特定频率产生过高的电平（如长笛或人声的某些音符）。尽管如此，等式（3）表明，如果梳状滤波器的输出在求和之前被加权（与它们各自的延迟长度成正比），频率密度将保持等于模态密度（即延迟之和长度以秒表示），因为所有模式将始终具有相同的激励（图 6）。

时间密度

在类似于图 5 的时间响应的情况下，术语“回波密度”具有明显的含义，因为回波的幅度完全遵循指数递减的包络线。然而，在真实房间中情况并非如此，连续的回声可能具有非常不同的幅度，并且很快彼此重叠得如此紧密，以至于无法从响应中提取出明显的回声。这建议使用术语“时间密度”来指代感知的感觉，如上文在频域中一样。在图 5 的情况下，“时间密度”将被认为等于回波密度（即延迟长度的倒数之和）。

对于具有 P 延迟的并行梳状滤波器，其长度 Xpare 分布在平均 _ 秒左右的近距离范围内，我们可以近似写为：

频率密度： $D_{f}=\sum_{p=0}^{P-1}\tau _{p}\approx P.\tau$ (5)

时间密度： $D_{t}=\sum_{p=0}^{P-1}\frac{1}{\tau _{p}}\approx P/\tau$ (6)

从而： $P\approx \sqrt{D_{f}\cdot D_{t}}$ 并且 $\tau \approx \sqrt{D_{f}/D_{t}}$ (7)

如果按照 Schroeder 的建议，我们希望 Dt = 每秒 1000 个回波且 Df = 每赫兹 0.15 个模式，我们需要 12 个并联梳状滤波器，平均延迟长度约为 12 ms。然而，对于 44.1 Hz 的采样频率，这个时间密度听起来仍然不够（人们注意到，当混响装置的带宽增加时，时间密度应该更大[5]）。实际上，每秒大约 10000 个回波被认为是获得对短点击的平滑响应所必需的，这意味着我们需要多达 40 个梳状滤波器！使用更少的滤波器，需要减小延迟长度以使时间密度保持不变，但这会导致着色增加，因为频率密度变低。此外，Schroeder 表明，大房间的频率响应曲线中极值的平均间隔与混响时间成反比。这表明频率密度应与混响时间成正比，从而进一步增加长时间混响所需的梳状滤波器数量（0.15 模式/Hz 的密度适用于大约 1 秒的混响时间 [1]）。

混响时间控制

如果 $\tau$ 和 $g_{p}$ 以分贝表示，则方程 (4) 可以更方便地写为：

$\Gamma = G_{p}/m_{p}$ p为任意值（8）其中 $\Gamma =20log(\tau )$ 和 $G_{p}= 20log(g_{p})$ 。所有本征模式都具有相同的衰减时间， $\Gamma$ 是它们的衰减率，以每个采样周期的分贝表示。因此，混响时间定义为：

$T_{r}=-60T/\Gamma =-60\tau _{p}/G_{p}$ (9)

其中 $T$ 是采样周期， $\tau _{p}=m_{p}\cdot T$ 是以秒表示的延迟长度。因此，有两种方法可以修改混响时间： a) 将所有反馈增益 $G_{p}$ （以分贝表示）除以相同的系数 $\alpha$ 。

b) 将所有延迟长度 $\tau _{p}$ 乘以相同的系数 $\alpha$ 。

这两个操作都会将混响时间乘以 $\alpha$ 。方法 (b) 还将修改时间密度和频率密度，并且有点类似于将房间尺寸乘以 $\alpha$ 。衰减 $G_{p}$ 类似于由于传播的吸收空气中的声音，因为它们与延迟长度成比例（因此，与声音所覆盖的距离成比例）。然而，它们也解释了空气的平均吸收墙壁，当人们想要模拟房间大小的修改时，应该单独考虑。

获得频率相关的混响时间

Schroeder [1] 建议使反馈增益与频率相关，以便混响时间可以成为频率的函数（通常在真实房间的低频下更长）。 Moorer [2] 在每个反馈回路中插入了一个一阶 IIR 滤波器，并试图优化滤波器系数以模拟空气吸收的低通效应。

将每个衰减 $g_{p}$ 替换为具有传递函数 $h_{p}(z)$ 的“吸收滤波器”，如图 7 所示，我们现在将研究如何选择这些传递函数以避免不自然的共振以及它们与混响时间的关系作为频率的函数。由公式（4）表示的条件扩展如下：在任何足够窄的频带（其中混响时间可以认为是常数），所有本征模必须具有相同的衰减时间。等效地，对应于相邻特征频率的系统极点必须具有相同的幅度。这种情况可以称为 $z$ 平面中极点轨迹的“连续性”（图 8）。极点的大小成为归一化频率 $\omega$ 的函数，我们必须选择传递函数 $h_{p}(z)$ ，以便如果极点位于频率 $\omega$ 处，则其大小以分贝表示，如公式(9) 所示：

$\Gamma(\omega )=-60T/T_{r}(\omega )$ $0\leqslant \omega \leqslant \pi$ (10)

Moorer [2] 研究了如何通过在环路中插入滤波器来修改梳状滤波器的极点。在 [9] 和 [10] 中也研究了这个问题，其中基于改进的算法类似于图 7 所示的梳状滤波器用于合成弹拨音色。如果吸收滤波器实现纯频率相关增益 $g_{p}(\omega )=\left | h_{p}(e^{j\omega }) \right |$ ，则梳状滤波器的谐振频率不变，并且位于归一化频率 $\omega$ 处的极点为振幅：

$\gamma (\omega )=\left | h_{p}(e^{j\omega }) \right |^{\frac{1}{m_{p}}}$ (11)这个条件取代了方程（4），并且必须尊重任何 $p$ 以避免不自然的共振。在这种情况下，将等式（10）中的两边乘以 $m_{p}$ ：

$log_{10}\left | h_{p}(e^{j\omega }) \right |=-3\tau _{p}/T_{r}(\omega )$ (12)

更一般地，我们必须考虑由传递函数 $h_{p}(z)$ 引入的相位延迟，这使得有效环路长度与频率相关，从而略微修改了梳状滤波器的特征频率。对于我们的目的，当衰减特性被修改时，特征频率没有必要保持完全不变。但是，要完全满足极点轨迹的“连续性”条件，必须用上述方程中的有效环路长度代替延迟长度，式（12）变为：

$log_{10}\left | h_{p}(e^{j\omega }) \right |=\frac{-3}{T_{r}(\omega )}\cdot \left ( \tau _{p}-\frac{\angle h_{p}(e^{j\omega }) }{\omega } \right )$ (13)其中 $\angle$ 表示复数的参数。

使用公式（12）设计具有所需 $T_{r}(\omega )$ 曲线的吸收性过滤器更方便。同样，似乎每个吸收性过滤器都应该实现类似于空气中吸收的衰减，这与 Moomr 的方法一致，尽管这些过滤器还必须考虑与频率相关的壁吸收，如果需要更高的精度，而不是使用等式（ 13），我们可以设计线性相位吸收滤波器产生频率相关的增益，一个样本的频率独立相位延迟（延迟长度 $m_{p}$ 减少 1）。这将保持有效环路长度不变，并且谐振频率不变。在我们使用一阶 IIR 吸收滤波器（如下所述）的实现中，通过简单地使用公式(12) 获得了令人满意的结果。

独立控制频率响应和衰减特性

如本文第 1 部分所述，混响滤波器必须允许独立控制混响时间和混响电平（频率的两个函数）。不幸的是，使反馈增益频率依赖于梳状滤波器会修改频率响应的包络，如图 7 所示。这是因为修改方程 (1) 和 (2) 中的一对共轭极点的大小会修改衰减时间，但也会修改相关本征模的能量。以时域表示的模式能量是对应的指数衰减正弦波的能量。因此，如果模式的激发保持不变，它的能量只是与它的衰减时间成正比。在频率尺度上选择一个参考 $\omega _{0}$ ，我们可以写成：

$\frac{l(\omega)}{l(\omega _{0})}=\frac{T_{r}(\omega)}{T_{r}(\omega _{0})}$ (14)

其中 $l(\omega)$ 是位于频率 $\omega$ 的本征模的能量。如果所有梳状滤波器都满足极点轨迹的“连续性”条件，那么通过关联一个与并行梳状滤波器串联的色调校正器 $t(z)$ ，如图 9 所示，前提是：

$\frac{\left | t(e^{j\omega T}) \right |}{\left | t(e^{j\omega_{0} T}) \right |}=\frac{T_{r}(\omega _{0})}{T_{r}(\omega_{})}$ (15)

使用一阶滤波器实现

作为上述方法的简单应用，一种设计一阶 IIR 滤波器的技术现在将描述滤波器和适当的音调校正器。传递函数 $h_{p}(z)$ 的分解如图 10 所示，使用零频率作为参考：

$h_{p}(z)=k_{p}\cdot \delta k_{p(z)}$ 当 $\delta k_{p}(z)=\frac{1-b_{p}}{1-b_{p}\cdot z^{-1}}$ (16)

一阶滤波器 $\delta k_{p}(z)$ 类似于 Moorer [2] 使用的滤波器，实现了低通函数当 $0\leqslant b_{p} < 1$ ,并且在 $\omega =0$ 处有单位增益。我们定义了对应的 $T_{r}(\omega )$ 来显式模拟空气吸收率曲线，因此我们可以满足式（12）表示的极点轨迹的“连续性”条件，并使用补偿频率响应方程（15）。值得注意的一点是，如果系数 $b_{p}$ 小于1，则频率包络本身可以很好地近似于另一个一阶 IIR 响应（见图 7），从而可以很容易地用一阶 FIR 滤波器校正频率响应（图 9）。增益 kp 像以前一样由零频率下的混响时间确定：

$K_{p}=20 log_{10}(k_{p})\approx -60\tau _{p}/T_{r}(0)$

计算（在附件中有详细说明）表明，每个系数 $b_{p}$ 必须与所有梳状滤波器（大约）要满足的等式（12）的相应延迟长度成比例。如果我们使用 $\alpha =T_{r}(\pi )/T_{r}(0)$ 作为命令参数来塑造混响时间与频率的关系，我们得到：

$b_{p}\approx K_{p}\cdot \frac{ln(10)}{80}\cdot \left [ 1-\frac{1}{\alpha ^{2}} \right ]$

$t(z)=\frac{1-bz^{-1}}{1-b}$ 当 $b\approx \frac{1-\alpha }{1+\alpha }$

这些公式对于系数 $b_{p}$ 的小值有效，即对于不太小的 $\alpha$ 值和不太长的延迟（在图 9 上，频率包络轻微偏离正常曲线）。不幸的是，一阶滤波器只提供两个参数来控制衰减特性，而心理声学研究表明混响时间应该是在至少三个频段内可控，以覆盖整个感知范围[8]。然而，这里描述的一般方法可以用于更复杂的滤波器。

3. 多反馈延迟网络的泛化

提高时间密度

以上对并行梳状滤波器的研究表明，其最大的局限性在于考虑到总延迟长度决定了人们可以获得的最大频率密度，很难用合理数量的单位滤波器获得足够的时间密度。就时间密度而言，串联全通滤波器（图 2）具有更合适的行为：每秒的回波数明显更大，并且随着脉冲响应而增加（比较图 1la 和图 5 )，尽管提出时间密度的度量变得更加困难。这是由于单元滤波器的串联关联，或者更准确地说，由于某些延迟单元的输出被馈送到其中的几个，从而在时间响应中产生回波密度的累积。 Stautner 和 Puckette [3] 提出了一种更通用的多反馈延迟网络方法。它建议研究一般延迟网络的特性，目的是推广吸收滤波器控制衰减特性的方法，同时以较少的延迟单元获得改进的时间密度。

一般延迟网络

可以构建的最通用的单输入单输出网络，包括 N 个延迟单元长度为 $\tau _{i}=m_{i}$ ， $T$ 是其中输出信号 y(t) 是输入信号 x(t) 和所有延迟单元的输出 $q_{i}(t)$ 的线性组合，每个延迟的输入也是如此单元：

$y(t)=\sum_{i=1}^{N}c_{i}\cdot q_{i}(t) +d\cdot x(t)$ (16)

$q_{j}(t+m_{j})=\sum_{i=1}^{N}a_{ij}\cdot q_{i}(t) + b_{j}\cdot x(t)$ 其中 $1\leq j\leq N$ (17)

生成的网络如图 12 所示，其中，正如 [3] 中提出的，“反馈矩阵”A 包含所有反馈增益 $a_{ij}$ （从延迟单元 i 到延迟单元 j）。使用 z 变换和矩阵符号，等式（16）和（17）分别变为：

$y(z)=c^{T}\cdot q(z)+d\cdot x(z)$ (18)

$q(z)=D(z)\cdot \left [ A\cdot q(z) + b \cdot x(z) \right ]$ (19)

其中

$q(z)=\begin{bmatrix} q_{1(z)}\\ .\\ .\\ .\\ q_{N(z)}\\ \end{bmatrix}$ $D(z)=\begin{bmatrix} z^{-m_{1}}& & & & 0\\ &. & & & \\ & & .& & \\ & & & .& \\ 0& & & & z^{-m_{N}} \end{bmatrix}$ $b=\begin{bmatrix} b_{1}\\ .\\ .\\ .\\ b_{N}\\ \end{bmatrix}$ $c=\begin{bmatrix} c_{1}\\ .\\ .\\ .\\ c_{N}\\ \end{bmatrix}$

向量 b 和 c 成为多输入多输出系统的矩阵（ $c^{T}$ 是 c 的转置）。 D(z) 将被称为“延迟矩阵”。消除方程（18）和（19）中的 $q(z)$ 得到系统传递函数：

$\frac{y(z)}{x(z)}=c^{T}\cdot \left [ I - D(z)\cdot A \right ]^{-1}\cdot D(z)\cdot b + d = H(z)$ (20)

其中 $I$ 是单位矩阵。由于延迟矩阵 $D(z)$ 是对角矩阵，我们有 $[D(z)]^{-1}=D(z^{-1})$ ，传递函数可以写成：

$H(z)=c^{T}\cdot [D(z^{-1})-A]^{-1}\cdot b + d$ (21)

一般延迟网络的极点研究

系统几点的特征方程如下：

$det[A-D(z^{-1})]=0$ (22)

其中 $D(z^{-1})$ 是对角线（延迟矩阵的逆矩阵），A 是反馈矩阵。在一般情况下，分析求解这个方程并不简单，更不用说评估本征模的激发了。我们将关注两类特定的反馈矩阵：酉矩阵（验证 $A^{T}=A^{-1}$ ）和三角矩阵（验证 $a_{ij}=0$ 当 i > j）。在 [3] 中，表明系统的稳定性可以通过选择酉矩阵和对角矩阵的乘积作为反馈矩阵，其元素的数量级小于 1。还研究了一个特定的四延迟网络详细地说，使用以下反馈矩阵，其中 g 用于控制混响时间：

$A=\frac{g}{\sqrt{2}}\cdot \begin{bmatrix} 0 & 1 & 1 & 0\\ -1 & 0 & 0 & -1\\ 1& 0 & 0 & -1\\ 0& 1 & -1 &0 \end{bmatrix}$ 其中 $g<1$

可以看出，选择酉反馈矩阵实际上迫使所有系统极点都在单位圆上。这可以通过编写方程(19) 的状态变量公式来观察，其中状态向量 $q\tilde{~}(t)$ 由在时间 t 存储在网络延迟单元中的所有样本组成。如果状态变量定义如下：

$\tilde{q}_{i}^{k}=q_{i}(t+k)$ 其中 $1\leq i\leq N$ $0\leq k\leq m_{i}-1$

公式（17）可以写成如下：

$\tilde{q}_{i}^{k}(t+1)=\tilde{q}_{i}^{k+1}(t)$ 其中 $0\leq k\leq m_{i}-2$

$\tilde{q}_{j}^{m_{j}-1}(t+1)=\sum_{i=1}^{N}a_{ij}\cdot \tilde{q}_{i}^{0}(t) + b_{j}\cdot x(t)$ 其中 $1\leq j\leq N$

从而公式（19）变成了：

$\tilde{q}(z)=z^{-1}\cdot [\tilde{A}\cdot \tilde{q}(z)+\tilde{b}\cdot x(z)]$ (23)

其中状态转移矩阵 $\tilde{A}$ 是一个方阵，其维数是延迟长度之和，其特征值是系统极点。该矩阵的形式表明，当（且仅当）反馈矩阵 A 是单一的时，它是单一的。因此，如果 A 是单一的，则系统极点的大小为 1。这意味着系统只有非衰减本征模。

一个众所周知的情况是当反馈矩阵 A 是对角线时，这将我们带回到 Schrocder 的并行梳状滤波器。由于方程（22）的行列式是对角项的乘积，特征方程变为：

$\prod_{i=1}^{N}(a_{ii}-z^{m_{i}})=0$ (24)

更有趣的是，当 A 是三角形时，这仍然有效（因为 $A-D(z^{-1})$ 也是三角形的）。因此，如果 A 是三角形的，则极点与具有反馈增益 $a_{ii}$ 的并联梳状滤波器的极点相同。特征频率仅由延迟长度的选择确定，并且每个延迟单元都与谐波谐振模式相关联。模式的衰减率仅由 A 中的对角线系数确定。A 中的非对角线系数以及系数 $b_{i}$ 和 $c_{i}$ 仅确定本征模式的激励。

Schroeder 的系列全通滤波器（图 2）本身就是一个带有三角反馈矩阵的网络（其对角线元素是反馈增益 $g_{i}$ ）。这表明串联全通滤波器与具有相同延迟单元和反馈增益的并联梳状滤波器具有相同的特征模式（谐振频率和衰减率）（比较图 11b 和图 6）。

衰减特性的控制：泛化

为了使所有共振具有相等的衰减时间，系统极点必须具有相同的幅度，由等式（9）得出：

$\gamma =10^{-3\cdot T/T_{r}}$ (25)

当反馈矩阵是三角形时，这个条件很容易满足：方程（24）显示我们只需要选择对角线元素，这样：

$a_{ii}=\gamma ^{m_{i}}=10^{-3\cdot \tau _{i}/T_{r}}$ (26)

该规则特别适用于串联全通滤波器（图 11），将避免响应短瞬态时的不自然共振，与并联梳状滤波器一样，产生额外的好处，即提供增加的时间密度和一个固定的频率响应（在图 11b 中，时间响应中的初始脉冲被取消）。正如本文开头提到的，串联全通滤波器的主要问题是，当反馈增益的幅度接近 1 时（即混响时间比较长时），它的时间响应往往会变成单脉冲延迟长度）。

然而，上面第 2 部分中描述的方法建议通过修改每个延迟单元的传递函数而不是修改反馈矩阵的系数来控制衰减特性。为了推广这种方法，我们在图 12 的通用网络中的每个延迟的输出处插入一个增益 ki，考虑到以下条件，从公式（4）得出：

$k_{i}=\alpha ^{m_{i}}$ (27)

这相当于在公式（19）中用 $D(z/\alpha )$ 替换 $D(z)$ ，或者在公式（22）中用 $D(\alpha \cdot z^{-1})$ 替换 $D(z^{-1})$ 。其效果显然是将所有系统极点乘以 $\alpha$ 。因此，从任何具有相等幅度的极点的“参考滤波器”开始，我们可以在不违反极点等幅度原则的情况下修改混响时间。如果增益 $k_{i}$ 与频率有关，则极点轨迹的“连续性”同样可以通过限制将条件 (27) 转换为窄频带并使频率相关。

这个结果使我们能够将“吸收滤波器”的方法推广到任何延迟网络，如图 13 所示，前提是我们知道具有相等幅度的极点的“参考滤波器”。要求该幅度应为 1 不是限制（始终可以通过选择极点幅度的倒数来获得）。任何具有酉反馈矩阵的网络都是参考滤波器，但这不是必要条件，因为人们也可以选择对角元素等于 $\pm 1$ 的三角反馈矩阵（三角矩阵不能是酉矩阵，除非它是对角的）。选择在单位圆上有极点的参考滤波器更方便，因为这样 $\alpha (\omega )$ 与极点的大小一致。在这种情况下，图 13 中的吸收滤波器 $h_{i}(z)$ 和色调校正器 $t(z)$ 可以使用公式（12）和（15）直接设计，如本文第 2 部分所述。

混响时间也可以通过将所有延迟长度 $m_{i}$ 乘以相同的系数 $\alpha$ 来修改，而无需修改反馈矩阵。这相当于在公式（19）中将 $D(z)$ 替换为 $D(z^{\alpha })$ ，这意味着所有特征频率都除以 $\alpha$ 。以分贝表示的极点的大小也除以 $\alpha$ ，它乘以混响时间由 $\alpha$ ，如公式(25) 或公式(9) 所示。

很容易想象网络允许通过使用影响所有反馈路径的单个增益 g 来控制混响时间。然而，我们可能会注意到，将增益 $k_{i}$ 与图 12 的网络中的每个延迟相关联等效于将反馈矩阵的相应列（和系数 $b_{i}$ ）乘以 $k_{i}$ 。因此，如果将反馈矩阵作为一个整体乘以唯一增益 g，则无法满足等式（27）或（26）表示的条件。这些等式表明需要将单独的增益（或吸收滤波器）与网络中的每个延迟单元相关联。否则，我们强烈怀疑极点轨迹的连续性条件无法满足（如果反馈矩阵是三角形的，则肯定不会）。

选择参考滤波器

参考滤波器完全定义了混响器的结构，如图 12 所述（即：延迟单元的数量、延迟长度、输入、输出和反馈路径）。由于参考滤波器的极点具有单位幅度，因此其脉冲响应仅由非衰减本征模组成。典型的参考滤波器是反馈矩阵是单位矩阵的滤波器，它对应于并行梳状滤波器。虽然我们不能提出一种直接的方法来选择参考滤波器，但是通过使用没有零系数的单一反馈矩阵，可以从并行梳状滤波器中获得显着的改进。这会产生具有少量延迟抽头的最大时间密度。可以尝试多种矩阵。

Moorer 报告说，通过将输入信号与指数衰减的伪随机高斯序列进行卷积，可以获得非常自然的人工混响效果。为了测试混响滤波器结构的有效性，可以将参考滤波器与伪随机噪声发生器进行比较：聆听其脉冲响应可以测试所选结构的时间响应重复模式、时间密度不足和频率密度不足。如果频率密度太低，则产生的噪声听起来有颜色（听到“振铃”音）。在这方面，一个关键因素是共振激发的分布，它应该尽可能均匀，以便产生具有更短延迟的最大频率密度。延迟单元的数量决定了时间密度在稳定之前建立的速度。图 14 显示了在具有单一反馈矩阵和 1 秒总延迟时间的 12 延迟网络情况下的参考滤波器响应，其特点是快速建立，然后是平滑的无色噪声。如果延迟长度保持不相称以避免时间和频率响应中的峰值叠加，则延迟长度的选择并不重要[1]。选择允许更简单计算的特定矩阵（少于 N2 乘加来计算反馈路径）也是有利可图的。

4. 测试和可能的改进

采用上述方法设计的混响滤波器只是为了模拟混响衰减的最后部分，产生了某种“理想化”的混响。当然，这里并不打算准确模拟特定房间响应的模态内容。极点轨迹的“连续性”条件仅应被视为通过具有成本效益的延迟网络（就总延迟长度和延迟单元数量而言）获得自然响亮混响效果的一种手段，但它可能并不指真实房间的一个特点。我们怀疑这里研究的一般延迟网络的限制之一是它在整个频率范围内表现出均匀的模态密度（它肯定与三角反馈矩阵有关）。在真实房间中，模态密度随着频率的平方而增加，尽管模态激励的不均匀性可能会导致更均匀的频率密度。

该模型的必要扩展之一是允许通过向不同通道提供几个不相关的输出来再现空间印象。这可以通过直接使用延迟单元的输出来完成（如 [3] 中提出的），或者更一般地，通过将这些输出信号的不同组合馈送到每个通道来完成。需要进一步研究以确定应如何选择这些组合来控制感知的空间印象，具体取决于收听情况（通道、耳机或扬声器的数量）。这需要对早期反射进行更准确的控制，尤其是在想要模拟多个或移动源的情况下。 Moorer [2] 建议添加一个与递归网络串联的 FIR 滤波器，以模拟单声道脉冲响应的前 80 ms（并增加回声密度）。在 [3] 中，可以将多个早期反射分配给每个输出通道（通过为每个延迟单元提供多个输入路径）。这两种实现都使用房间中声音传播的几何模型来评估第一次反射的延迟、幅度和频谱内容。通过实现双耳头部相关传递函数 [12] 来模拟直达声的入射方向和每个单独的反射，Morrer 的方法可以扩展到立体声耳机再现 [11]。

尽管直接声音的精确双耳处理对于模拟声源的定位是必要的 [12]，但尚不清楚早期反射的延迟、幅度、方向和频谱内容是否需要很高的精度。声音传播几何建模的主要问题是它忽略了声音扩散和墙壁和障碍物衍射的重要贡献[2]，[5]。心理声学标准可能有助于节省计算机控制和计算早期响应的时间。

5. 总结

本文提出了一种设计多反馈延迟网络的通用方法，用于模拟单声道房间响应的最后部分。 “混响滤波器”的设计分为两个独立的步骤： 1.“参考滤波器”的设计！具有非衰减本征模式和定义混响器结构。 2.“吸收滤波器”的设计允许频率相关的混响时间控制，并带有相关的音调校正器以补偿频率响应的修改。可以根据房间声学质量的感知标准选择吸收性过滤器，而不考虑参考过滤器。参考滤波器的设计需要定义额外的感知标准来评估人工混响的自然性：“时间密度”和“频率密度”，这在室内声学中通常不会考虑，仍然需要更完整的研究。