论文翻译：Imperceptible, Robust, and Targeted Adversarial Examples for Automatic Speech Recognition

最新推荐文章于 2023-07-08 14:22:27 发布

碧海蓝天go星辰大海

最新推荐文章于 2023-07-08 14:22:27 发布

阅读量2.2k

点赞数 10

分类专栏：论文翻译

原文链接：https://arxiv.org/pdf/1903.10346.pdf

版权

论文翻译专栏收录该内容

4 篇文章 1 订阅

订阅专栏

原文链接：https://arxiv.org/pdf/1903.10346.pdf

含有Demo展示：http://cseweb.ucsd.edu/~yaq007/imperceptible-robust-adv.html

实现GitHub： https://github.com/cleverhans-lab/cleverhans/tree/master/cleverhans_v3.1.0/examples/adversarial_asr

用于自动语音识别的不易察觉的、鲁棒的、有目标的对抗样本

摘要——对抗样本是由攻击者设计的能导致机器学习模型错误输出的输入。到目前为止，对抗样本在图像领域得到了最广泛的研究。在该领域中，可以通过对图像进行不易察觉的修改来构造对抗样本，从而引起错误分类，并在物理世界中具有实用价值。与此相反，目前应用于语音识别系统的目标对抗样本没有这两种特性：人类可以很容易地识别对抗扰动，而且在over-the-air（空中）传播时它们并不有效。本文在这两个方面都取得了进展。首先，我们利用听觉掩蔽的心理声学原理，开发出了有效的、不易察觉的音频对抗样本(通过人类调研得到了验证)，同时对任意完整句子目标保持100%的有目标成功率。接下来，我们通过构造扰动，使其在应用了真实模拟环境失真后仍然有效，从而在物理世界能空中传播（over-the-air）的音频对抗样本方面取得了进展。

一. 介绍（Introduction）

对抗样本(Szegedy et al.， 2013)是由攻击者专门设计的输入，用于导致机器学习算法产生错误分类(Biggio et al.， 2013)。对抗样本的初步研究主要集中在图像分类领域。为了区分一般神经网络上的对抗样本的属性与仅适用于图像的属性，研究不同领域的对抗样本具有重要意义。事实上，已知对抗样本存在于，从强化学习(Huang et al.， 2017)到阅读理解(Jia & Liang, 2017)，再到语音识别(Carlini & Wagner, 2018)。本文重点研究最后一个领域，其中，(Carlini & Wagner, 2018)表明，任何给定的源音频样本都可以被轻微扰动，因此自动语音识别(ASR)系统可以将音频转录为任意不同的目标句。

到目前为止，ASR上的对抗样本与图像上的对抗样本在两个关键方面有所不同。首先，图像上的对抗样本是人类无法察觉的：可以在不改变8位亮度表示的情况下生成对抗样本(Szegedy et al.， 2013)。相反地，ASR系统上的对抗样本通常是可察觉的。虽然引入的扰动通常（量级）很小，但倾听时，能明显感到添加的扰动存在(Sch onherr et al.， 2018)。其次，关于图像的对抗样本在物理世界中是起作用的(Kurakin等，2016)(例如，甚至在给它们拍照时)。相比之下，ASR（自动语音识别）系统上的对抗样本还不能在由扬声器播放并由麦克风录制的 over-the-air环境中工作。

在本文中，通过开发难以察觉的对抗样本，我们改进了在ASR系统上的对抗样本的构造，并匹及图像上的攻击能力，且向着鲁棒对抗样本迈进了一步。

为了生成不易察觉的对抗样本，我们没有使用常见的用于对抗样本研究的“ $l_{p}$ ”距离度量。相反，我们利用听觉掩蔽的心理声学原理，只在人类听不到音频区域添加对抗扰动，即使这种扰动在绝对能量方面不是“安静”的。

进一步研究（与图像不同的）对抗样本的属性，我们考察了攻击者构建的物理世界对抗样本的能力(Kurakin等，2016)。这些输入，甚至在考虑到物理世界引起的失真后（即，将输入先进行模拟的现实中的失真处理之后，再传入ASR，仍是具有对抗性的），在分类时仍保留有对抗性。我们通过设计经过随机房间环境模拟器（random roomenvironment simulators）处理后仍然具有对抗性的音频(Scheibler et al.， 2018)，初步实现开发可以在空中（over-the-air）播放的音频的步骤。

最后，我们还证明了我们的攻击能够攻击一个现代化的、最先进的Lingvo ASR系统(Shen et al.， 2019)。

二. 相关工作（Related Work）

我们对神经网络的鲁棒性进行了长期的研究。本研究领域主要始于(Biggio et al.， 2013; Szegedy et al.， 2013)，他们首先研究了深层神经网络的对抗样本。

本文主要研究自动语音识别系统中的对抗样本。早期在该领域的工作(Gong & Poellabauer, 2017; Cisse et al., 2017)成功地生成了无目标的对抗样本，这些对抗样本产生了错误的但任意的转录（非指定的转录结果）。同时期进行的工作在实践中成功地生成了有目标的攻击，即使是通过扬声器播放和麦克风录制的攻击(所谓的over-the-air攻击)，但只针对(a)合成全新的音频和(b)较老的、传统的(即不是基于神经网络）语音识别系统(Carlini et al., 2016; Zhang et al., 2017; Song & Mittal, 2017)。

这两项工作由Carlini & Wagner (2018)部分统一起来，他（们）为针对任意(多词)句子的语音识别系统构建了对抗样本。然而，这种攻击既在over-the-air不是有效的，也不是完全听不见对抗扰动；虽然它所引入的扰动是非常安静的，但是它们可以被人听到(见x7.2)。与此同时，CommanderSong (Yuan et al., 2018)攻击开发出了对抗样本，在over-the-air是有效的，但代价是给原始音频引入了明显的扰动。

在此之后，与我们并行开展的工作开发了对深度学习ASR系统的攻击，这些系统要么在over-the-air工作，要么不那么明显地可察觉。

Yakura & Sakuma (2018)，创造可以在over-the-air播放的对抗样本。这些攻击对两个或三个单词的短短语非常有效，但对最初研究的全句短语则不然。此外，这些对抗样本通常具有明显更大的扰动，并且在一种情况下，引入的扰动的大小比原始音频高（或者，引入扰动的振幅比原始音频高）。
Schonherr等人（2018）致力于通过使用心理声学隐藏开发不易察觉的攻击，并攻击了Kaldi系统，该系统部分地基于神经网络，但也使用一些传统组件，例如将隐马尔可夫模型而不是RNN用于最终分类。由于系统差异，我们无法直接将它们的结果与我们的结果进行比较，但我们鼓励读者听听两篇论文的样本。

我们的并行工作设法（几乎）同时实现了这两个结果：我们生成了几乎不可察觉且在模拟失真之后仍然有效的对抗样本。同时，我们的目标是一个基于最先进网络的Lingvo ASR系统，，而不是Kaldi，并生成完整的句子对抗样本，而不是针对较短短语。

最后一项工作将ASR系统上的对抗样本生成从白盒设置（攻击者完全了解分类器底层）扩展到黑盒设置（Khare等，2018; Taori等，2018 ）（只允许攻击者查询系统）。这项工作与我们是互补的且独立于我们的：我们的假设是一个白盒威胁模型。

三. 背景（Background）

3.1 问题定义

给定一个输入波，一个目标转录，和一个自动语音识别（ASR）系统 f(.) ，它能够输出最终转录。我们的目标是构造一个不可察觉、有目标的对抗样本，它能够在over-the-air播放时攻击ASR系统。即，我们力图找到一个微小的扰动 $\sigma$ ，它能够使 $x=x^{{}'}+\sigma$ 满足以下3个要求：

有目标的（Targeted）：分类器被欺骗，使得 $f(x^{{}'})=y$ ，而 $f(x)\neq y$ 。在ASR系统上的无目标对抗样本仅是引入拼写错误，没有太多研究意义。
不易察觉的（Imperceptible）：与听起来非常相似，以致于人类无法区分它们。
鲁棒的（Robust）：对以扬声器播放、以麦克风录音的over-the-air攻击方式仍是有效的，（我们并未完全实现这一目标，但在模拟环境中取得了成功）。

3.1.1 ASR模型（ASR MODEL）

我们对Lingvo分类器(Shen et al.， 2019)进行了攻击，该分类器是一种最先进的带有attention (Bahdanau et al.， 2014)的序列到序列模型(Sutskever et al.， 2014)，其架构基于Listen、Attend和Spell模型(Chan et al.， 2016)。它将滤波器组频谱输入一个由卷积层组成的编码器，LSTM层构成一个输出转录的LSTM解码器。序列到序列框架的使用允许使用标准的交叉熵损失函数对整个模型进行端到端训练。

3.1.2 威胁模型（THREAT MODEL）

在本文中，和之前的大部分工作一样，我们考虑了白盒威胁模型，攻击者可以完全访问该模型及其参数。特别是，允许攻击者通过模型计算梯度，以生成对抗样本。

当我们进行over-the-air攻击时，我们并未假定我们知道将要执行攻击的房间内的确切配置。相反，我们假设我们知道房间将从哪个分布（结合后文，我对这里的分布的理解，是指房间的宽长高、源音频和麦克风在房间中的xyz坐标、混响时间这几项参数的多个值组成的一个大的集合，之后可从中每次随机抽取一组）中抽取，并生成对抗样本，以便对从这个分布中抽取的任何房间都有效。

3.2 对抗样本生成

对抗样本通常是通过对一个损失函数上的输入执行梯度下降来生成的，该损失函数被设计为当输入是对抗性的时候，就被最小化(Szegedy et al.， 2013)。具体来说，表示神经网络 f(.) 的输入， $\delta$ 表示扰动， l(f(x),y) 是损失函数，当 f(x)=y 时，它被最小化。大多数对抗样本的工作都是最小化 $\delta$ 的最大范数（max-norm，即 $\left \| . \right \|_{\infty }$ 范数，它表示矩阵中行向量绝对值之和的最大值）。然后，一般的对抗样本生成算法(Szegedy et al., 2013; Carlini & Wagner, 2017; Madry et al., 2017)解决：

（其中，在一些公式中， $\alpha=0$ ）， $\epsilon$ 控制着引入的最大扰动极限。

为了在ASR系统上生成对抗样本，Carlini&Wagner(2018)将CTC-loss设置为（损失函数），并使用max-norm，其具有在整个音频样本中一致地添加少量对抗扰动的效果。

四. 不易察觉的对抗样本（Imperceptible Adversarial Examples）

不像在图像上，最小化图像与其最近的错误分类样本之间的“ $l_{p}$ 失真” 产生视觉上无法区分的图像，在音频上并非如此(Sch onherr等，2018)。因此，在这项工作中，我们未使用“ $l_{p}$ 失真度量”，而是依赖于在音频空间中所做的大量工作来捕获人类对音频的感知能力。

4.1 心理声学模型（Psychoacoustic Models）

为了能够构建难以察觉的对抗样本，对人类听觉系统的良好理解是至关重要的。在本文中，我们使用了频率掩蔽（frequency masking），它指一个响度较大（应该指声音的dB值大）的信号(the "masker")可以使与它频率相近的其他信号(the "maskees")难以察觉的现象(Mitchell, 2004; Lin & Abdulla, 2015)。简单来说，masker可以看作是在频域中创建了一个掩蔽阈值，任何低于这个阈值的信号实际上都难以被察觉。

由于掩蔽阈值是在频域内测量的，而且音频信号随时间变化很快，因此我们首先计算原始音频信号的短时傅里叶变换，来获得信号重叠节段（overlapping sections，我估计这是指“帧”）(称作“窗口”)的频谱。窗口大小N为2048个采样点数，其中“hop size”为512个采样（我的理解是帧长为2048个采样点数，后面一帧是前面一帧向右移动512个采样点数，也就是前后两帧的起始点相差512个采样点数），接着用修改后的Hann窗（汉宁窗）加窗。我们将 $s_{x}(k)$ 表示为帧频谱的第个bin（假设有个帧，经过FFT转化后的每个帧长是个采样点数，那么第个bin就是指帧的第个采样点吧，也就是说 $s_{x}(k)$ 为帧的第个采样点的值）。

然后，计算对数级的功率频谱密度（PSD）,如下所示（这里的应该是FFT时设置的采样点数）：

最后，标准化的PSD估计 $\bar{p}_{x}(k)$ 是由Lin &Abdulla (2015)定义的。（从下式可看出，标准化PSD是指用96减去帧中的最大 $p_{x}\left ( k \right )$ 对应的值，再加上本身的 $p_{x}\left ( k \right )$ 值）

掩蔽阈值（Masking Threshold）：给定一个输入音频，为了计算它的掩蔽阈值，首先，我们要确认maskers，它的标准化PSD估计 $\bar{p}_{x}(k)$ 必须满足三个标准：1)它们必须是频谱中的局部最大值；2)它们必须高于安静（in quiet）时的阈值；3)它们在masker的频率附近的0.5Bark(a psychoacoustically-motivated frequency scale)内具有最大振幅（Bark：Bark尺度是把物理频率转换到心理声学的频率）。然后，利用简单的双斜率扩散函数逼近（或者近似）每个masker的掩蔽阈值，从而模拟maskers的激励模式（excitation patterns）。最后，全局掩蔽阈值 $\theta _{x}\left ( k \right )$ 是单个的掩蔽阈值和安静阈值通过累（相）加的合并(因为掩蔽的效果在对数域是累加的)。我们推荐有兴趣的读者阅读我们的附录和(Lin & Abdulla, 2015)关于计算掩蔽阈值的细节。

当我们将扰动 $\delta$ 添加到音频输入时，如果扰动的标准化PSD估计 $\bar{p}_{\delta }(k)$ 低于原始音频的频率掩蔽阈值 $\theta _{x}(k)$ ，扰动就会被原始音频掩蔽，而使人听不见。扰动的标准化PSD估计 $\bar{p}_{\delta }(k)$ 可通过下式计算：

其中， $p_{\delta }(k)=10\log_{10}\left | \frac{1}{N}s_{\delta }(k) \right |^{2}$ 和 $p_{x }(k)=10\log_{10}\left | \frac{1}{N}s_{x}(k) \right |^{2}$ 分别是扰动和原始音频的PSD估计。

4.2 掩蔽阈值的优化（Optimization with Masking Threshold）

损失函数：给定一个音频样本和一个目标语句，我们将构造不易察觉对抗样本 $x_{0}=x+\delta$ 的问题用最小化损失函数 $l(x,\delta ,y)$ 的公式表示，其定义为：

其中， $l_{net}$ 要求对抗样本欺骗音频识别系统，做出（或得到）目标预测，其中 $f(x)\neq y$ 。在Lingvo模型中， $l_{net}$ 采用了简单的交叉熵损失函数。术语 $l_{\theta }$ 用于约束扰动的标准化PSD估计 $\bar{p}_{\delta }(k)$ ，使其低于原始音频的频率掩蔽阈值 $\theta _{x}(k)$ 。这里使用铰链损失（hinge loss）来计算掩蔽阈值的损失：

其中为预定义的窗口大小， $\left \lfloor x \right \rfloor$ 指不大于的最大整数，自适应参数 $\alpha$ 是平衡这两个条件或标准（criteria）的相对重要性。

4.2.1 两阶段攻击（TWO STAGE ATTACK）

根据经验，我们发现，在没有任何关于扰动 $\delta$ 的大小（magnitude）的约束时，很难通过反向传播来直接最小化掩蔽阈值损失函数。这是合理的，因为欺骗神经网络的同时，限制非常大的扰动在频域内低于掩蔽阈值是非常具有挑战性的。相反，如果扰动 $\delta$ 的幅度相对较小，那么使剩余的失真低于频率掩蔽阈值将比较容易。

因此，我们将优化分为两个阶段：优化的第一个阶段主要是寻找一个相对较小的扰动来欺骗网络(正如之前的工作(Carlini &Wagner, 2018)所做的那样)，第二阶段是使对抗样本变得不易察觉。

在第一阶段，我们将式（4）中的 $\alpha$ 设置为零，并将扰动限制在相对较小的范围内。因此，第一阶段解决：

其中， $\left \| \delta \right \|$ 表示 $\delta$ 的最大范数（max-norm） $\left \| . \right \|_{\infty }$ ，具体来说，我们开始设置 $\delta =0$ ，然后，在每次迭代中：（ sign(x) 表示符号函数， x>0 时， sign(x)=1 ； x<0 时， sign(x)=-1 ； x=0 时， sign(x)=0 。我估计 $clip_{\epsilon }$ 表示将每次更新得到的 $\delta$ 限制在 $\left \| \delta \right \|\leq \epsilon$ 这个范围内，也就是凡是超过这个范围的数值，就将其赋值为 $\epsilon$ ，从而保证 $\left \| \delta \right \|\leq \epsilon$ 。）

其中， $lr_{1}$ 是学习率， $\bigtriangledown _{\delta }l_{net}$ 是 $l_{net}$ 关于 $\delta$ 的梯度，遵循Carlini & Wagner (2018)，我们初始将 $\epsilon$ 设为一个较大的值，然后，在优化期间逐渐减小它（如Carlini & Wagner (2018)所做）。

第二阶段主要是，在 $\delta$ 的最大范数（max-norm） $\left \| \delta \right \|_{\infty }$ 无界（unbounded）（也就是没有上限 $\epsilon$ 的限制）的情况下，使对抗样本难以察觉；在此阶段， $\delta$ 仅被掩蔽阈值约束所限制。具体来说，用第一阶段优化所得的 $\delta ^{*}_{im}$ 初始化 $\delta$ ，然后在每次迭代中：

其中， $lr_{2}$ 是学习率， $\bigtriangledown _{\delta }\left ( l \right )$ 是对 $\delta$ 的梯度。损失函数 $l(x,\delta ,y)$ 得定义见式（4）。 $\alpha$ 用于平衡网络损失 $l_{net}(f(x+\delta ),y)$ 和不易察觉（imperceptibility）损失 $l_{\theta }(x,y)$ ，它被初始化为一个很小的值（如0.05），然后根据攻击的性能自适应（adaptively）更新。具体来说，每20次迭代，如果当前的对抗样本成功地欺骗了ASR系统(即 $f(x+\delta )=y$ )，那么就增加参数 $\alpha$ 值，以使对抗样本的可察觉度减少。相应地，每50次迭代，如果当前的对抗样本未能做出目标预测，我们就减少 $\alpha$ 。我们检查的攻击失败的频率低于检查成功的频率(50 vs 20 次迭代)，是为了让网络有更多的迭代次数来达到收敛（我的理解是，收敛就意味着让函数减小，而检查失败是决定 $\alpha$ 是否要减少，检查成功是判定 $\alpha$ 是否要增加，那么我们检查成功的频率若高的话， $\alpha$ 就被增加的次数会多于被减少的次数，从而损失函数减少就会慢一些，从而迭代次数就会增多）。优化算法的细节将在附录中进一步说明。

五. 鲁棒的对抗样本（Robust Adversarial Examples）

5.1 声学房间（或者空间）模拟器（Acoustic Room Simulator）

为了提高对抗样本经（over-the-air）空中播放时的鲁棒性，我们使用声学房间（room，也可译为空间or室内）模拟器来创建模拟over-the-air中播放音频的人工语音(带有混响（reverberations）的语音)。声学房间模拟器中的转换函数（transformation function）表示为，以干净的音频作为输入，输出带有混响的模拟语音 t(x) 。首先，房间模拟器应用了(Allen & Berkley, 1979; Scheibler et al., 2018)引入的经典图像源方法（Image Source Method），根据房间配置(房间尺寸（dimention）、源音频和目标麦克风的位置、混响时间)创建房间脉冲响应。然后将生成的房间脉冲响应与干净的音频进行卷积，创造混响语音，得到 t(x)=x*r ，其中表示卷积运算。为了使生成的对抗样本对各种各样的环境具有鲁棒性，使用了多个房间脉冲响应。因此，转换函数在不同的房间配置上遵循一个选定的分布 $\tau$ 。

5.2 带混响的优化（Optimization with Reverberations）

在这一节，我们的目标是让带有混响的扰动语音（而不是干净的音频）欺骗ASR系统。所以，生成的对抗样本 ${x}'=x+\delta$ 首先通过空间模拟器，创造带有混响的模拟语音 t({x}') ，（用于模拟在over-the-air中播放对抗样本），然后，将模拟语音 t({x}') 作为新的输入来欺骗ASR系统，使得 $f\left ( t\left ( {x}' \right ) \right )=y$ 。同时，对抗扰动 $\delta$ 要相当的小，以使得人听不见。

用和 the Expectation over Transformation in (Athalye et al., 2018)相同的方式，我们优化了损失函数在不同转化 t~T 上的期望值，如下：

我们不是将 $f\left ( x+\delta \right )=y$ 直接作为目标，而是将损失函数 $l_{net}$ 应用于转化语音 $f\left ( t\left ( x+\delta \right ) \right )=y$ 。在每一次梯度下降步骤中，我们通过从分布 $\tau$ 中独立地抽取一个转换来近似期望值的梯度。

在第一个 $I_{r_{1}}$ 迭代中，我们用一个足够大的值初始化 $\epsilon$ ，然后根据Carlini &Wagner (2018)那样逐渐减小它。我们认为只要对抗样本在任意的一个房间配置下能成功欺骗ASR系统，它就是成功的，换言之，仅在一个 $t\left ( . \right )$ 下满足 $f\left ( t\left ( x+\delta \right ) \right )=y$ 即可。一旦优化完成（complete），我们将获得 $\delta$ 的最大范数的边界，表示为 $\epsilon _{r}^{*}$ ，然后，我们用 $\delta _{r}^{*}$ 作为下一阶段的 $\delta$ 初始值。

然后，在接下来的 $I_{r_{2}}$ 迭代中，我们用非常小的学习率来微调扰动 $\delta$ 。扰动 $\delta$ 的最大范数（max-norm）边界增加为 $\epsilon _{r}^{**}=\epsilon _{r}^{*}+\Delta$ ，其中， $\Delta >0$ ，且在优化期间保持不变。在这一阶段，我们仅当对抗样本能欺骗or愚弄一组随机抽取的转换（transformations） $\Omega =\left \{ t_{1},t_{2},...,t_{M} \right \}$ ，其中 $t_{i}\sim \tau$ ，M是集合 $\Omega$ 的大小。转换集合 $\Omega$ 是在每步梯度下降时从分布 $\tau$ 中随机抽样的。换言之，在这个阶段生成的对抗样本 ${x}'=x+\delta$ 满足 $\forall t_{i}\in \Omega$ ， $f\left ( t_{i}(x+\delta ) \right )=y$ 。通过这种方法，我们可以在不知道房间环境的前提下，生成能够成功攻击ASR系统的鲁棒对抗样本，房间环境的配置是从预定义的分布中提取的。算法的更多细节见附录。

应该强调的是，在不易察觉性和鲁棒性之间存在权衡(我们将在第7.2节的实验中展示)。如果我们增加了扰动得最大幅值 $\epsilon _{r}^{**}$ ，那么鲁棒性还可以进一步提高。相应地，人类将更容易察觉到对抗扰动并且警惕ASR系统。为了使这些对抗样本不被察觉，因此我们将扰动 $\small l_{\infty }$ 幅值限制在一个合理的范围。

六. 不易察觉的和鲁棒的攻击（Imperceptible and Robust Attacks）

通过结合我们前面开发的两种技术，现在我们开发了一种生成不易察觉的和鲁棒的对抗样本的方法。可以通过最小化（下面的）损失来实现：

其中，交叉熵损失 $l_{net}(.)$ 是用于Lingvo（ASR系统）的损失（函数），不易察觉损失 $l_{\theta }(.)$ 与式5中定的相同。因为我们需要语音在一个随机的房间配置中播放时能够欺骗ASR系统，所以，交叉熵损失函数 $l_{net}(f\left ( t\left ( x+\delta \right ) \right ),y)$ 要强制（或迫使）转换了的对抗样本 $t\left ( x+\delta \right )$ 转录为。

为了进一步使对抗样本不易察觉，我们通过优化 $l_{\theta }(x,\delta )$ 来约束扰动 $\delta$ 在频域内低于干净音频的掩蔽阈值。优化 $l_{\theta }(x,\delta )$ 比起优化铰链损失 $l_{\theta }(t\left ( x \right ),t\left ( \delta \right ))=max\left \{ \bar{p}_{t\left ( \delta \right )}(k)-\theta _{t\left ( x \right )}(k),0 \right \}$ 是相当容易的，因为干净音频的频率掩蔽阈值 $\theta _{x}(k)$ 是可以预计算的，而带有混响的语音的掩蔽阈值 $\theta _{t\left ( x \right )}(k)$ 会随着房间混响变化的。此外，基于卷积定理，优化 $l_{\theta }(x,\delta )$ 和优化 $l_{\theta }(t\left ( x \right ),t\left ( \delta \right ))$ 具有相似的效果，即两个信号卷积的傅里叶变换是它们的傅里叶变换的点积（逐点对应相乘）。注意，带有混响的语音 $t\left ( x \right )$ 就是干净音频x和一个模拟的房间混响r的卷积，因此，

其中， $\boldsymbol{F}$ 是傅里叶变换，表示卷积操作，表示点乘运算。我们首先对扰动和原始音频运用了短时傅里叶变换（STFT），从而计算出在频域内的功率谱密度 $\bar{p}_{t(\delta )}$ 和掩蔽阈值 $\theta _{t\left ( x \right )}$ 。优于房间脉冲相应的绝大多数能量在频谱分析的窗口size之内，因此，式11中的卷积定理得到了近似满足。所以，我们得出：

因此，仅是优化不易察觉损失 $l_{\theta }(x,\delta )$ 可以有助于找到最优的 $\delta$ 值，以及（有助于）构建在物理世界能攻击ASR系统的不易察觉对抗样本。

具体来说，我们首先使用第五节的能够使对抗样本鲁棒的 $\delta _{r}^{**}$ 初始化 $\delta$ ，然后，在每一次迭代中从分布 $\tau$ 中随机抽取转换，以及根据下式更新 $\delta$ ：

其中， $l_{r_{3}}$ 是学习率， $\alpha$ 是平衡鲁棒性和不易察觉性之间重要性的参数，它是根据对抗样本的性能而自适应改变。具体来说，如果对抗样本能成功攻击一组随机抽取的转换（transformations），那么 $\alpha$ 就会增加，从而更关注于不易察觉的损失。否则， $\alpha$ 就会减少，使攻击对多个房间环境更加鲁棒。实现细节在附录中进行了说明。

七. 评估（Evaluation）

7.1. 数据集和评估指标（Datasets and Evaluation Metrics）

数据集（Datasets）： 在实验中，我们使用的是 LibriSpeech 数据集 (Panayotov et al., 2015)，它是一个来源于有声读物（或有声书，audiobooks）的16KHz的英语语音的语料库，并且被用于训练了Lingvo system (Shen et al., 2019)（一个ASR系统）。我们随机选择1000个音频样本作为源样本，并从test-clean数据集中选择1000个不同的（separate）转录作为目标转录。我们确保每个目标转录的长度与原始转录的长度大致相同，因为将一个较短的音频片段(例如10个单词)扰乱成为较长的转录(例如20个单词)是不现实的，而且过于具有挑战性。原始样本和目标转录可以在附录中找到。

评估指标（Evaluation Metrics）： 对于自动语音识别，我们使用词错误率（WER）评估我们的模型，它被定义为，其中，S、D、I 分别是替换、删除和插入的单词数量， $N_{W}$ 是总的单词数量（in the reference）

我们也计算了成功率（句子级的准确率），，其中， $N_{\alpha }$ 是我们测试的音频样本数量， $N_{s}$ 是正确转录的音频样本数量，这里的“正确转录”是指干净音频的原始转录和对抗样本的目标转录。

7.2. 不易察觉性的分析（Imperceptibility Analysis）

为了攻击Lingvo ASR系统，我们构建了1000个不易察觉的、有目标的对抗样本，每一个对应着我们从 LibriSpeech 的 test-clean 数据集上抽取的一个样本。表1展示了干净音频和构建的对抗样本的性能，我们可以看出在1000个测试样本中，干净音频的词错误率仅是4.47%，表明了该（ASR）模型具有较高的质量。我们的不易察觉的对抗性样本表现得更好，达到了100%的成功率（指表1中Adversarial对应的准确率）。

表1. 1000个干净样本和（1000个不易察觉）的对抗扰动样本的句子级准确率和词错误率（WER），其中，输入Lingvo模型之前没有经过over-the-air模拟。在“Clean”列，ground truth是（干净音频的）原始转录，在“Adversarial”列，ground truth是（对抗样本的）目标转录。

7.2.1. 定性的人类研究（QUALITATIVE HUMAN STUDY）

从测试集中选择的1000个样本中，我们随机选择了其中的100个，以及与它们对应的不易察觉的对抗样本。然后，我们使用之前的Carlini &Wagner (2018)的工作生成（与上面提到的100个对抗样本所对应的的目标转录）相同目标转录的对抗样本；这个攻击再次以100%的成功率成功攻击。我们做了三个实验来证实我们的对抗样本是不易察觉的，特别是与之前的工作相比。

实验设计（Experimental Design）： 我们在Amazon Mechanical Turk（亚马逊劳务众包平台，简称AMT）上聘用了80个线上用户。我们给每个用户三个(几乎相同的)实验中的一个（可能是指每个用户只参与三个实验中的一个），我们将在下面描述每个实验。在所有情况下，实验由20个“comparisons tasks（比较任务）组成”，其中，我们给评估员（evaluator）提供一些音频样本，并询问他们关于这些样本的问题(如下所述)。我们让用户戴着耳机去收听每个样本，并回答一个关于音频样本的简单问题（这个问题由我们运行哪个实验决定，如下所示）。我们不解释研究的目的，除了它是一项研究课题，并且不记录任何个人识别（或者身份）信息。我们随机地包括了一小部分答案显而易见的问题（We randomly include a small number of questions with known, obvious answers）; 我们从研究中删除了3位未能正确回答这些问题的用户。

在所有的实验中，当用户不确定答案时，他们能够多次收听音频文件，这使得将我们的对抗样本当作干净数据而通过变得尽可能的困难。另外，用户还可以连续收听20个样本，从而有效地“训练”他们能够识别出细微的差异。实际上，排列测试发现，与实验的前半部分相比，在实验的后半部分中，统计上的结果明显表明用户能更好地区分对抗样本和干净音频，尽管差异很小：仅为约3％。图1总结了我们在下面给出的统计结果。

图1. 人类对不易察觉的研究结果。baseline（基线）代表Carlini & Wagner (2018)生成的对抗样本，ours 表示第四节的算法生成的不易察觉的对抗样本。

Experiment 1: clean or noisy（干净的或带噪声的）： 我们从一个我们认为最具代表性的（关于攻击如何在实践中起作用的）实验开始。我们给用户一个音频样本，让他们告诉我们是否有任何背景噪音（例如，静止的，有回声的，背景说话声）。

作为基线，用户认为19%的原始干净音频样本中含有一定量的噪声，66%的用户认为Carlini & Wagner(2018)生成的对抗性样本含有一定量的噪声。相比之下，只有23%的用户认为我们生成的对抗样本包含一些（any）噪声，这一结果与干净音频的统计差异并不明显（ p> .05 ）。也就是说，当单独提供一个音频样本（给用户）时，用户不会认为我们生成的对抗样本比干净的样本更noisier（具噪声或者像噪声吧）。

Experiment 2: identify the original（识别原始的那个音频）： 我们给用户两个音频样本，并告知他们其中一个音频样本是另一个的修改版本；我们让用户选择听起来更为自然的音频样本。这种设置更具挑战性：当用户前后（连着）收听了这两个音频，通常是很可能发现添加了少量失真（distortion）。将原始音频与 Carlini & Wagner(2018) 生成的对抗样本进行比较时，评估员选出原始音频的概率为82%。当我们让评估员比较我们生成的不易察觉的对抗样本与Carlini & Wagner(2018)生成的对抗样本时，83%的情况下，我们的不易察觉样本被选为较自然的音频样本——与干净音频相比，这种差异（82%和83%之间）在统计上不可区分的。

然而，当直接将我们生成的对抗样本与干净的音频进行比较时，66%的用户（在2选1时）仍然更倾向于干净的音频。注意（Observe）当样本完全无法区分时，基线百分比应为50%（也就是随机猜测的应该各占50%）。因此，在区分我们的样本和干净的样本时，用户的表现仅比随机猜测好16%（66%-50%）。

Experiment 3: identical or not（完全相同否）： 最后，我们做了最难的实验：我们向用户提供了两个音频文件，并询问他们（两个）音频样本是否相同，或者是否有任何差异。作为基线（baseline），当相同的音频样本被给予两次时，85%的用户认为它是相同的。(也就是说，在15%的情况下，评估员错误地听到了两个样本之间的差异)。当给一个干净的音频样本，并将其与Carlini & Wagner(2018)生成的音频进行比较时，只有24%的用户认为它们是相同的。将干净的音频与我们生成的对抗样本进行比较时，76%的用户认为它们完全相同的，比基线（Carlini & Wagner(2018)）生成的对抗样本高3倍，但低于实际完全相同音频的85%这个值。

7.3. 鲁棒性分析（Robustness Analysis）

为了准备（mount）或者说实现我们的模拟over-the-air攻击，我们考虑一个具有挑战性的设置，即执行攻击的房间（room）的确切配置未知。相反，我们只知道（抽取房间配置）的分布（we are only aware of the distribution from which the room configuration will be drawn.）。首先，我们从分布中抽样（sampled）生成1000个房间配置作为训练房间（training room）集合。测试房间集（test room set）包含另外100个随机从（与上面提到的）相同的分布中抽取的房间配置（room configurations）。创建对抗样本在模拟的测试房间（test room）内播放时攻击Lingvo ASR系统。我们随机从 LibriSpeech 数据集选择100个音频样本来执行鲁棒性测试。

表2. 100个干净的和对抗扰动样本在经过over-the-air模拟之后输入Lingvo model的句子级准确率和WER（词错误率）。“clean”输入对应的ground truth是原始转录（结果），而对抗（样本）输入的ground truth 是目标转录。扰动的最大范数边界为 $\left \| \delta \right \|< \epsilon _{r}^{*}+\Delta$

如表2所示，当输入经模拟测试房间（test room）播放的非对抗音频时，Lingvo ASR的WER（词错误率）降到了15.42%，这表明它对混响具有一些鲁棒性。相反，在这种装置下，(Carlini & Wagner, 2018)和第4节中我们的不易察觉对抗样本的成功率为0%。我们的基于第5节算法生成的鲁棒对抗样本的成功率超过60%，而且WER比干净音频的小。成功率和WER都证明我们构建的对抗样本在高逼真的模拟环境中播放时仍然有效。

此外，所构造的对抗样本的鲁棒性可以在提高可察觉度的前提下（代价下）得到进一步的提高。如表2所示，当我们增加对抗扰动幅值的最大范数边界时 $\epsilon _{r}^{**}=\epsilon _{r}^{*}+\Delta$ （ $\Delta$ 被从300增加到400），成功率和WER（词错误率）都相应地改进了。由于我们最终的目标是生成可以在物理世界的over-the-air播放的不易察觉的、鲁棒的对抗样本，所以我们将对抗扰动限制在一个相对较小的范围内，以避免对干净音频产生巨大（huge）的失真。

为了构建不易察觉且鲁棒的对抗样本，我们从鲁棒的攻击开始（ $\Delta =300$ ），然后用不易察觉损失来微调它。在我们的实验中，我们观察到81%（ps：另外19%的对抗样本由于在优化过程中的任何迭代中，无法在随机抽取的8个training room内成功攻击ASR系统而丧失了鲁棒性。）的鲁棒对抗样本可以进一步改进的更不易察觉，同时仍保持高鲁棒性(成功率接近50％，WER为22.98％)。

7.3.1. QUALITATIVE HUMAN STUDY

我们在鲁棒的和鲁棒且不易察觉的对抗样本上运行了与之前描述（7.2.1部分描述的）的完全相同的实验。

在实验1中，我们询问评估员是否听到任何噪音，只有6%的用户认为干净音频中一些噪音，100%的用户认为鲁棒的（但是可感知的）对抗样本是有噪音的，83%用户认为鲁棒的且不易察觉的对抗样本是含有噪音的。（ps：评估员表示，在干净音频中听到噪音（6%），与先前研究中的基线相比（19%）（7.2.1），少了3倍，我们认为这是因为当事先准备的样本明显不同时，基线变得更容易区分。）

在实验2中，我们让评估员比较干净音频和鲁棒对抗本，从中识别出干净音频，而97%的评估员识别出了干净音频。当让其从干净音频和鲁棒不易察觉的对抗样本中识别出干净音频时，有89%的评估员识别出了干净音频。

最后，在实验3中，我们询问评估员（所给的两个）音频是否完全相同。当基线干净音频与鲁棒对抗样本进行比较时，有95%的概率被判为不同。当干净音频与鲁棒且不易察觉的对抗样本进行比较时，有71%的概率被判为不同的。

在所有的情况下，不易察觉且鲁棒的对抗样本在统计上明显比仅是鲁棒的对抗样本有较少的可感知度，但也在统计上比干净音频更具有可感知度。直接比较不易察觉且鲁棒的对抗样本和鲁棒的对抗样本，91%的评估员认为不易察觉对抗样本有较少的失真。

很明显，鲁棒的对抗样本和干净音频之间更容易区分，即使在我们应用了掩蔽阈值时。然而，该结果与在图像上的对抗样本的结果是一致的，即（图像上）的完全不可察觉的物理世界的对抗样本并未成功构建。在图像上，物理攻击需要超过16倍的失真才能在物理世界有效（比如，Kurakin et al. (2016)中的图4）。

八. 结论

本文基于听觉掩蔽的心理声学原理，成功地构造出了用于自动语音识别的不易察觉的对抗样本(经人人类调研证实)，同时对任意全句目标保持了100%的目标成功率。同时，我们也在开发鲁棒的对抗样本方面取得了进展，这些样本在空中播放后仍然有效(由随机房间环境模拟器处理)，增加了使用针对ASR系统的对抗样本的实际生活中的攻击的实用性。

我们认为未来的工作仍然是需要的：我们鲁棒的对抗样本尽管是在模拟的房间环境中工作，但是并不完全在over-the-air播放。在保持高目标成功率的同时解决这一困难，对于证明实际的安全问题是必要的。

作为潜在独立兴趣的最终贡献，这项工作演示了如何为非基于 $l_{p}$ 的度量（metrics）构建对样本。特别是在图像上，几乎所有的对抗样本研究都集中在这种高度局限的距离测量上。致力于发现（identifying）人类用来评估相似性的不同方法，并利用这些度量标准生成对抗样本，这是我们希望未来的工作能够探索的一项重要研究工作。

附录（Appendix）

A. Frequency Masking Threshold（频率掩蔽阈值）

在本节中，我们将详细介绍如何计算用于构造不易察觉的对抗样本的频率掩蔽阈值。这一过程是基于心理声学原理，是经过多年的人类研究提炼出来的。关于心理声学模型的进一步背景，我们建议有兴趣的读者参考(Lin & Abdulla, 2015; Mitchell, 2004)。

Step 1: Identifications of Maskers（masker的确定）

为了计算一个输入信号 $x\left ( n \right )$ ， $0\leqslant n\leqslant N$ 的频率掩蔽阈值，我们需要首先确认maskers。maskers分为两类：音调（tonal）和非音调（nontonal）maskers，其中非音调比音调maskers具有更强的掩蔽效应。在这里，我们简单地将所有maskers视为tonal maskers，以确保我们计算的阈值总是能够掩蔽噪声。tonal maskers的标准化PSD估计 $\bar{p}_{x}^{m}\left ( k \right )$ 必须满足三个标准：第一，它们必须是频谱局部极大值，满足：

第二，任何maskers的标准化PSD评估要高于安静阈值 $ATH\left ( k \right )$ ，

其中， $ATH\left ( k \right )$ 可以近似表示为下面的频率依赖函数：

安静阈值只适用于人类的听力范围（20Hz~20kHz）。当我们对一个信号执行了短时傅里叶变换（STFT）之后，频率 f 和采样点的索引的关系为：

其中， $f_{s}$ 是采样频率（指一秒内的采样点数），N是窗大小（应是窗长度）。（ $\frac{f_{s}}{2}$ 是因为，根据香农定理，采样频率 $f_{s}$ 必须大于被采样信号带宽的两倍）

最后，maskers必须在masker频率的0.5Bark范围内具有最高的PSD，其中bark是一种 psychoacoustically-motivated frequency scale，它将人类的主要听力范围（20Hz~16kHz）划分成不重叠的24个临界频带，其单位（unit）就是Bark，随频率的变化如下：

由于掩蔽效应在对数域是累加的，所以masker的PSD估计可以进一步用它的相邻值以（下面的式子）来平滑：

Step 2: Individual masking thresholds（单个的掩蔽阈值）

由于masker的扩展函数（spreading functions）在不同的Barks是相似的，所以由Bark 尺度（scale）表示的频率能很好地计算单个的掩蔽阈值。我们用 $b\left ( i \right )$ 表示频率索引的bark尺度。为了模仿maskers的特性，引入了许多扩展函数（spreading function），在这里，我们选择了简单的双斜率扩展函数（two-slope spread function）：

其中， $b\left ( i \right )$ 和 $b\left ( j \right )$ 分别表示masker在频率索引和msakee在频率索引的bark尺度。然后， $T\left [ b\left ( i \right ) ,b\left ( j \right )\right ]$ 是指masker的bark索引 $b\left ( i \right )$ 对maskee的bark索引 $b\left ( j \right )$ 所起的掩蔽效应。经验上，阈值 $T\left [ b\left ( i \right ) ,b\left ( j \right )\right ]$ 由下式计算：

其中， $\Delta _{m}\left [ b\left ( i \right ) \right ]=-6.025-0.275b\left ( i \right )$ ， SF[b(i),b(j)] 是上面提到的扩展函数。

Step 3: Global masking threshold（全局掩蔽阈值）

全局掩蔽阈值是单个的掩蔽阈值和安静阈值通过相加的合并。根据下面的计算，用分贝dB来度量在频率索引处的全局掩蔽阈值：

其中， $N_{m}$ 是选择的所有masker的数量，计算出的 $\theta _{x}$ 作为输入音频的频率掩蔽阈值，用以构建不易察觉的对抗样本。

B. Stability in Optimization

如果在反向传播中存在不稳定性问题，则是由于阈值 $\theta _{x}\left ( k \right )$ 和扰动的标准化PSD估计 $\bar{p}_{\delta }\left ( k \right )$ 中的 log 函数的存在，我们移除掉PSD估计 $p_{\delta }\left ( k \right )$ 和 $p_{x}\left ( k \right )$ 中的术语 $10\log_{10}$ ，然后就成为了：

扰动的标准化PSD就会转变成：

相应的，阈值 $\theta _{x}\left ( k \right )$ 变成：

D. Implementation Details

本文中产生的对抗样本都是通过Adam optimizer（Kingma & Ba, 2014）进行优化的。每个部分中使用的超参数如下所述。

D.1. Imperceptible Adversarial Examples

为了构造不易察觉的对抗样本，我们将优化过程分为两个阶段：在第一阶段，学习率 $l_{r_{1}}$ 被设为100；迭代次数 $T_{1}$ 为1000；最大范数边界 $\epsilon$ 初始为2000，然后在优化期间逐渐减小。在第二阶段，迭代次数 $T_{2}$ 为4000；学习率 $l_{r_{2}}$ 初始为1，在3000次迭代之后减为0.1；平衡 $l_{net}$ 和 $l_{\theta }$ 重要性的自适应参数 $\alpha$ 初始为0.05，然后基于对抗样本的性能逐渐更新。算法1给出了两阶段优化的细节。

D.2. Robust Adversarial Examples

为了开发能够在over-the-air播放的鲁棒对抗样本，我们优化对抗样本还是两阶段。第一个阶段的目的是寻找一个相对较小的扰动，而第二个阶段的重点是使构造的对抗样本对随机房间配置更加鲁棒。第一阶段的学习率 $l_{r_{1}}$ 是50；且 $\delta$ 在2000次迭代中更新；扰动 $\delta$ 的最大范数边界 $\epsilon$ 初始仍为2000，然后逐渐减小。在第二阶段，迭代次数被设为4000；学习率 $l_{r_{2}}$ 为5； $\epsilon$ 是固定不变的，等于第一阶段的 $\epsilon _{r}^{*}$ 加上 $\Delta$ 。转换集合 $\Omega$ 的大小设为10。

D.3. Imperceptible and Robust Attacks

为了构造不易察觉且鲁棒的对抗样本，我们以D.2节中生成的鲁棒对抗样本开始。第一阶段，通过设置 $\alpha$ 初始为0.01、学习率为1，我们主要是减少不易察觉性。我们在4000次迭代中更新对抗扰动 $\delta$ 。如果对抗样本能在10个随机选择的房间（room）中的4个中成功攻击ASR系统，那么 $\alpha$ 增加2；否则，每50次迭代， $\alpha$ 减少0.5。

在第二阶段，我们专注于改进不易察觉的对抗样本，使其更加鲁棒。学习率是0.5； $\alpha$ 初始为0:00005；扰动将在6000次迭代中进一步更新。如果对抗样本能在10个随机选择的房间（room）中的8个中成功攻击ASR系统，则 $\alpha$ 增加1.2。

E. Transcription Examples

来自LibriSpeech数据集的原始语句和目标转录的一些示例(Panayotov et al.,2015)见表4。

碧海蓝天go星辰大海

关注

10
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
论文翻译：Imperceptible, Robust, and Targeted Adversarial Examples for Automatic Speech Recognition

原文链接：https://arxiv.org/pdf/1903.10346.pdf含有Demo展示：http://cseweb.ucsd.edu/~yaq007/imperceptible-robust-adv.html实现GitHub： https://github.com/tensorflow/cleverhans/tree/master/examples/adversarial_as...
复制链接

扫一扫