论文阅读：Robust Detection of Machine-induced Audio Attacks in Intelligent Audio Systems with Microphone-CSDN博客

基于麦克风阵列的智能音频系统中机器诱发音频攻击的鲁棒检测

i. 文章地址
ii. 常见术语
iii. 文章目录

i. 文章地址

Robust Detection of Machine-induced Audio Attacks in Intelligent Audio Systems with Microphone Array

ii. 常见术语

EER：Equal Error Rate(等错误率）

iii. 文章目录

Abstract

摘要： 近年来，随着智能音频系统的普及，其漏洞已经成为公众日益关注的问题。现有的研究已经设计出了一套机器诱发的音频攻击，如重放攻击、合成攻击、隐藏语音命令、听不见的攻击和音频对抗示例。这些攻击可能会让用户面临严重的安全和隐私威胁。为了抵御这些攻击，现有的努力一直在单独对待它们。虽然它们在某些情况下取得了相当好的表现，它们很难组合成一个一体化的解决方案来部署在实际的音频系统上。此外，现代智能音频设备，比如亚马逊Echo和苹果HomePod，通常配备麦克风阵列用于远场景语音识别和降噪。现有的防御策略主要集中在单通道和双通道音频上，然而，使用多通道麦克风阵列来防御特定类型的音频攻击的研究很少。由于缺乏对防范杂类音频攻击的系统研究，以及多通道音频的潜在好处，本文构建了一种利用多通道麦克风阵列在现代智能音频系统上检测机器诱导音频攻击的整体解决方案。具体来说，我们利用多声道音频的幅度和相位谱图来提取空间信息，并利用深度学习模型来检测人类语音和由播放机器产生的对抗音频之间的根本区别。此外，我们采用无监督域自适应训练框架，进一步提高模型在新声环境中的泛化能力。对包含5种高级音频攻击类型的公共多通道重放攻击数据集和自收集的多通道音频攻击数据集进行不同设置下的评估。结果表明，我们的方法在检测各种机器诱导攻击时可以达到6.6%的等错误率(EER)。即使在新的声学环境中，我们的方法仍然可以达到8.8%的EER。

CCS的概念
安全和隐私→系统安全

关键字： 智能音频系统、音频攻击、麦克风阵列

1. introduction

在过去的十年里，智能音频系统在住宅和工业领域的应用激增，因为它们为用户提供了一个方便的界面，通过语音命令来控制和与智能设备交互。特别是，亚马逊Alexa、谷歌Assistant、苹果Siri等语音助手已经整合到各种平台中，让用户可以方便地控制日常生活的各个方面，如智能家电控制、在线购物、个人日程/备忘录查询、智能汽车操作等。
随着此类应用的广泛应用，这些智能音频系统的各种类型的音频攻击漏洞已成为一个日益受到关注的安全问题。例如重放攻击，它试图简单地使用受害者的录音来绕过身份验证过程，长期以来一直是音频欺骗攻击的主要来源之一。合成攻击利用文本到语音引擎来模仿受害者的声音是当受害者的语音样本不能直接获取时常见的替代方法。除了这些传统的攻击方法，最近的研究揭示了新的漏洞，包括隐藏的语音命令，听不见攻击，以及音频对抗例子，它们要么利用机器和人类感知之间的差距，要么利用深度学习模型的内在脆弱性，使攻击不被察觉。
现有防御机制： 智能音频系统中出现的攻击向量需要一种通用的防御策略来保护语音用户界面免受公开的音频攻击。然而，大多数现有的研究对每种类型的攻击都是不同的，并试图针对每种攻击设计特定的机制。重放攻击是研究最多的音频攻击，在设计分类器时考虑了语音信号的许多特征，以区分重放语音和人类语音，如梅尔倒谱系数(MFCC)，常数Q倒谱系数(CQCC)，线性预测倒谱系数(LPCC)，矩形频率倒谱系数(RFCC)。除了这些功率谱特征外，人们还提出了相对相移、音高模式和神经元激活模式，以及其他光谱特征，以帮助区分人类语音和合成语音。隐藏语音命令的对策，如原始工作中所指出的，包括使用从隐藏语音命令和正常语音命令中提取的声学特征训练分类器(即逻辑回归)，已被证明几乎可以完全防御这种类型的攻击。最近的一项研究也显示了使用智能手机内置的运动传感器来击败隐藏的语音命令的潜力。为了防御听不见的攻击，麦克风增强、基带消除或学习调制语音命令的独特特征(这些特征与真实语音命令不同)已被考虑。此外，还探索了基于传播衰减的检测方法和使用发射的不可听见的“保护”信号来取消攻击的主动防御。对于防范音频对抗性实例，人们提出了多种利用音频转换或转录分析的方法。
先前工作的限制： 如上所述，现有的研究主要集中在设计专门的机制来防御个人攻击。这些机制从不同的角度设计，需要不同的传感模式或额外的硬件模块，因此在实践中几乎不可能将它们组合并部署到音频设备上。因此，针对所有现有音频攻击的轻量级整体防御策略是非常可取的。此外，大多数现成的智能音频系统都配备了麦克风阵列，用于远场语音识别、降噪和回声消除。例如，亚马逊Echo(第四代)有6个麦克风;亚马逊Echo Auto有8个麦克风;苹果HomePod有6个麦克风，等等。相比之下，大多数现有的检测重放音频的努力都是基于单通道录音。一些研究超越单一频道，探索智能手机上的双频道立体声录音。然而，这一领域的工作往往存在探测距离短的问题，而且还未能充分利用智能音频系统中普遍存在的多通道麦克风阵列的丰富传感能力。EarArray是少数几个利用多声道音频的作品之一，它提出通过麦克风阵列利用超声信号估计的衰减率来检测听不见攻击，但没有推广到其他音频攻击。Gong等人最近的一项研究表明，与单声道音频相比，多声道音频有助于提高检测重放攻击的性能(高达34.9%)。然而，该工作利用波束形成技术[10]对多通道音频信号进行滤波和组合，使其失去其他信道所携带的独特空间信息。此外，这项工作只是集中在重放攻击，而不是解决其他更高级的音频攻击。
利用多声道音频的好处： 与现有的基于单通道的解决方案相比，多通道音频攻击检测具有以下几个方面的优势:1.空间特征:多通道音频除了用于单通道音频攻击检测的时间和频谱信息外，还对攻击者难以操纵的重要空间信息(如到达角(AoA)和到达时间差(TDoA))进行编码;2. 检测范围:现有的单通道或双通道音频攻击检测系统只能在近距离场景下(如打电话)表现良好，因为当麦克风远离用户时，其性能会急剧下降，而从麦克风阵列采集的多通道音频信号可以通过降低噪声和混响来实现声源定位和语音增强，而噪声和混响对远场检测至关重要;3.设备兼容性:为了实现远场景免提语音控制，智能音频设备(如Amazon Echo和Apple HomePod)往往会配备多通道麦克风阵列。因此，多通道音频攻击检测解决方案可以直接部署到这些设备上，以获得增强的性能，而不需要额外的硬件。
提出工作： 基于多声道音频的潜在优势，在本工作中，我们开发了一个整体解决方案，利用智能音频系统上可用的多声道麦克风阵列来检测各种机器诱导的音频攻击。如图1所示，在这里插入图片描述
我们的方法的灵感来自于观察到所有音频攻击都需要一个播放设备(例如扬声器或超声波扬声器)来播放精心制作的攻击语音样本，而真正的语音是由人类声带发出的。这种声音产生的内在差异将被传递到所产生的音频中，导致不同的信号频率和方向性模式，这些模式可以被麦克风阵列捕获，并进一步用于区分真正的语音和机器诱导的攻击音频。我们没有手动搜索最优的特征集，而是求助于一种基于学习的方法，其中模型可以自动适应任何攻击方法、麦克风配置或在训练数据集中表示的声学环境，而不需要显式地调整。此外，与传统的利用波束形成对多路音频信号进行滤波并将其合并成单路信号的方法不同，我们分别利用所有可用信道的音频信号，用幅相谱图形成三维特征图，从而在整个过程中保存了重要的空间信息。此外，为了在看不见的环境中实现高效的检测，我们利用无监督的领域适应训练来帮助学习的模型适应新的声学环境，而不需要标记数据。我们还探索了不同的模型配置，以设计一个紧凑的模型，适合移动应用程序，而不牺牲太多的检测精度。我们的主要贡献总结如下:

我们剖析了现有的机器诱导音频攻击，包括重放攻击、合成攻击、隐藏语音命令、听不清攻击和音频对抗实例，并利用智能音频系统上配备的麦克风阵列录制的多通道音频设计了一种整体防御策略。
我们构建了一个深度学习模型，利用多声道音频的幅度和相位信息，实现了准确和鲁棒的音频攻击检测，而无需手工制作的功能。此外，我们采用无监督的领域自适应框架来实现与环境无关的检测，使得系统在部署到新的环境时仍然可以很好地工作。
为了评估我们提出的整体解决方案，我们重新实现了一组具有代表性的高级音频攻击，并使用各种播放/录音设备在不同环境条件下收集复制的敌对语音样本的录音数据集。
在公共多通道重放攻击数据集和经验采集的高级音频攻击数据集上的大量实验表明，我们的方法在检测这些机器诱导的音频攻击时可以达到6.6%的等错误率(EER)。即使在新的环境中，我们的独立于环境的解决方案仍然可以实现相当好的性能。

2.RELATED WORK

2.1 Machine-induced Audio Attacks

由于语音访问的开放性质,智能音频系统已经被证明是容易受到许多欺骗攻击,如传统的重放攻击,合成攻击以及其他一些更高级的音频攻击利用调制攻击声音(例如,隐藏语音指令)。在这些攻击中，重放攻击是最容易被攻击的，因为它只是简单地用一个方便的录音设备(如智能手机)记录受害者的语音样本，并为攻击重放语音样本。最近的一项研究也设计了调制重放攻击，调整了重放过程中引起的频域失真，使重放的声音更接近于真实的人类语言。当很难收集语音样本时，对手还可以发起合成攻击，产生模仿受害者语音特征(例如，音高范围、频率成分分布)的语音样本。这些攻击通常利用语音合成模型，只使用少量受害者的语音样本进行训练(例如，通过互联网或公共演讲收集)，将文本转换为受害者的目标语音。此外，对手可以修改来自任意发言者的声音样本，使其听起来像攻击的受害者的声音。由于最近在深度学习方面的进步，这样的语音合成模型可以产生听起来很自然的语音，使得攻击很难被检测到。
除了这些通过重放人声语音信号进行的传统攻击外，最近的研究表明，通过利用人与机器之间的感知差距或嵌入式深度学习模型的内在脆弱性，可以产生难以理解甚至听不清的攻击声音。例如，隐藏的语音命令将语音转换成模糊的语音命令，语音识别模型可以识别，而人类却无法理解。另一个例子是，“听不清攻击”(听不清攻击)将录制的语音样本调制到超声波频段(例如，超过20kHz)上，人类听众是完全听不见的，但由于其非线性特性，麦克风可以解调。此外，由于目前的嵌入式语音/说话人识别引擎大多基于深度神经网络(DNN)模型，对手可以探索模型固有的漏洞，生成精心设计的对抗扰动，以访问智能音频系统。这种攻击要么对重放的音频添加难以察觉的干扰，要么将语音样本嵌入环境噪声/背景音乐，以欺骗语音/说话人识别引擎，使模型产生对手所希望的输出(例如，说话人身份或语音内容)。最近的一项研究甚至开发了实际的对抗例子，以一种不同步的方式向流音频输入(例如，真人语音)注入对抗扰动，表明对智能音频系统构成严重威胁。

2.2 Existing Attack Detection Strategies

尽管大量的研究努力致力于开发攻击检测方法，以确保语音访问的安全，但很少有研究在现代智能音频系统上使用现有的麦克风阵列，以进一步提高其安全水平。现有的研究大多依赖于从单声道音频中提取频域特征来区分重播或合成语音与真人语音。例如，利用功率谱特征、相对相移和磁场畸变来检测重放和合成语音。最近的一项研究，VOID，利用从单通道音频中提取的光谱特征来检测各种音频攻击。然而，由于缺少多声道音频和空间信息，使得其仍然容易受到许多高级攻击，如调制重放攻击。调制重放攻击对重放过程中产生的频域畸变进行了校正。此外，有几项研究利用双通道音频的动态声学特征进行了活体检测，如呼吸中的流行噪声、立体声信号的互相关系、音素声音的到达时差变化。然而，这种动态声学特性只存在于附近，需要将麦克风放置在靠近用户嘴的地方(例如，对着智能手机说话时)。Gong等人的演示了使用多通道音频来防御重放攻击的潜力，与使用单通道音频相比(高达34.9%)，这显示了显著的改进，但提出的系统只能解决重放攻击。更重要的是，本研究将多个音频信道作为一个整体，将多个音频信号组合成一个单信道信号，从而丢失了不同信道之间的空间信息。
为了减轻更高级的音频攻击带来的威胁，最近的研究开发了各种方法来检测不可理解和听不清的攻击信号。为了检测隐藏的语音命令，Carlini et al.利用频域特征(如MFCCs，谱熵)训练的分类器(即逻辑回归)。Wang等人提出将音频记录转换为振动信号(通过运动传感器捕获)，以揭示隐藏语音命令的独特光谱特征。对于听不清攻击，研究人员探索了利用频域分析来检测超声信号或发出听不清的“保护”信号来抵消攻击的影响。最近，EarArray提出利用麦克风阵列估计的衰减率来区分超声波和可听到的声音，以击败听不清的语音命令(称为海豚攻击)。此外，信号滤波、量化、音频压缩、下采样和对抗训练已被证明对对抗音频例子是有效的防御方法。尽管前面提到的研究，无论是使用基于软件的方法还是使用专用的硬件，在防御单个攻击方面都显示了相当好的性能，但几乎不可能将它们组合在一起，作为一个多功能的解决方案，用于实际部署。
此外，一些研究人员提出使用额外的设备，包括智能眼镜、智能手机、可穿戴或耳机，以捕捉额外的语音特征来执行用户身份验证。这些调查利用独特的振动模式(例如，身体表面的振动，空气传播的振动)或语言的方向(例如，到达的角度)来确认声源的真实性。然而，这些方法需要额外的设备，这可能会增加额外的成本，并不是总是适用于实践。CaField通过利用智能手机上的两个车载麦克风捕捉声场传播过程中嵌入的声学特征，实现了连续扬声器验证。尽管这种方法提高了可用性，但它要求将智能手机放在离用户嘴相对较近的位置，而且在连续的验证过程中，保持姿势/位置需要保持一致。因此，它不适合更广泛的智能音频系统，如智能扬声器。
与现有的方法不同，我们通过利用多通道麦克风阵列开发了一个整体的防御系统，这些阵列在现代智能音频设备中很容易得到。与现有的方法不同，我们通过利用多通道麦克风阵列开发了一个整体的防御系统，这些阵列在现代智能音频设备中很容易得到。

3 MULTI-CHANNEL AUDIO ANALYSIS

在本节中，我们将探索潜在的声学特征，以区分机器诱导音频和人类语音，并通过彻底分析公共多通道回放音频数据集ReMASC来验证利用多通道音频的好处。

3.1 Characteristics of Machine-induced Audio

Machine vs. Human Production of Sound. 机器(如扬声器)通过沿一维方向来回移动振膜来发出声波。
在这里插入图片描述
如图2(a)所示，在发声过程中，电流流过音圈，产生磁场，磁场与永磁体相互作用，产生驱动振膜的力，使振膜振动。与之不同的是，如图2(b)所示，人类发声涉及到包括肺、声带和声道在内的多个生理成分，通常可以被视为一个两个阶段的过程，原始声音首先由一个源发出，然后在声道中成形。具体来说，语音有三种不同的来源。第一种来源是声带振动，它是在发声时产生的:肺部产生的气流流过开放的声道，使声带振动，产生[a]， [e]， [i]和[o]等元音。第二种声音来源是空气乱流，它是由牙齿、舌头或嘴唇收缩声道而产生的，以产生高速气流。空气发出的声音通过声道形成辅音，如[f]， [s]， [v]和[z]。第三个声源是完全堵住嘴前部的气流，然后突然释放出空气，这就产生了像[k]， [p]和[t]这样的爆破辅音。与机器诱导的声音相比，人类语言是在声道的不同位置产生的(例如，口腔和鼻腔)，并进一步由声道系统的共振形成。这些差异导致了光谱能量分布和传播路径上的可追踪模式，这些可追踪模式都将反映在幅度域和相位域特征上。
Audio Attack Process. 图3说明了机器诱导音频攻击的典型过程。
在这里插入图片描述
攻击者首先使用录音设备记录语音命令，然后在发起攻击时使用回放设备播放录制的音频。对于一些高级音频攻击，录制的音频在播放前将经历一个额外的预处理阶段(例如，计算反MFCC，反滤波，或调制到超声波载波)。相比之下，真正的语音命令是通过一次性的空中传播直接输入到智能音频系统。音频攻击的冗余过程会在几个方面给音频信号引入额外的噪声:首先，攻击音频在物理环境中传播两次，由于房间声学的影响，导致更多的失真(例如，环境噪音、衰减和混响);其次，录制和播放设备的硬件缺陷(如非平频响应、电子噪声等)也会极大地影响智能音频系统接收到的信号。

3.2 Potential Feature Analysis

传统上，基于功率谱的特征是音频信号分析中应用最广泛的特征，其在重放音频检测中的有效性已被许多研究证实。然而，仅仅基于功率谱的特征可能还不够，因为最近的一项工作表明，这些特征可能被老练的攻击者操纵，以逃避检测。除了广泛考虑的基于数量级的特征外，最近对单通道重放攻击检测的研究表明，相域特征还包含与基于数量级特征互补的信道信息，这对重放和合成音频检测有潜在的用处。然而，利用多信道相位信息进行音频攻击检测仍是一个未开发的领域。为了研究多声道音频的幅度和相位信息的可识别性，我们对最近发布的ReMASC数据集进行了特征分析，该数据集包含了在四种环境下从多声道设备录制的真实和重放的语音样本。数据集及其记录环境将在第7节中详细介绍。具体来说，我们根据记录环境(室外、室内1号、室内2号和车内)，将扬声器4- mic线性阵列记录的所有语音样本分成4组。这样，在每个环境中，总共会得到192、713、275和673个真实语音样本，以及311、2157、846和959个重放语音样本。图4绘制了所有真实音频和重放音频样本的平均功率谱，以及在所有通道上平均的连续相位谱。
在这里插入图片描述从图中，我们可以清楚地看到，在所有环境中，真实音频和重放音频的幅值和相位谱都表现出可区分的模式。这证实了在频域中的幅度和相位信息都可以用来了解人类和扬声器发声机制的先天差异。

3.3 Distinct Information Carried on Multiple Channels

传统的多通道语音识别方法往往依赖于波束形成技术，将接收到的多通道语音信号合并成增强的单通道语音信号，从而从噪声环境中分离或提取语音信号。具体来说，波束形成器的作用类似于空间滤波器，可以增强来自特定感兴趣方向(如语音信号)的信号，并减少来自其他方向(如环境噪声)的信号造成的污染。但是，与只关注语音信号的语音分离或语音识别不同，麦克风阵列采集到的多通道音频信号可能包含不同的信息(如周围不同的噪声模式)，这些信息有利于机器诱导音频检测过程。为了验证利用多通道音频提高音频攻击检测性能的可行性，我们进一步对ReMASC数据集进行分析，绘制两个单独通道的幅值和相位谱，如图5所示。
在这里插入图片描述
我们观察到，每个单独的通道都拥有独特的信息(特别是在相位域中可见)，这可能有助于机器诱导音频的检测。此外，我们对音频样本进行统计分析，通过计算每对通道的平均L1距离来量化它们之间的幅度/相位差。如表1所示，所录音频的任意两个声道在幅值和相位上都存在差异，说明每个声道确实携带着不同的信息。
在这里插入图片描述
此外，我们还观察到，具有最明显幅度信息的一对通道不一定携带最明显的相位信息。此外，我们还观察到，具有最明显幅度信息的一对通道不一定携带最明显的相位信息。

3.4 Dominant Channel in Each Environment

为了进一步研究不同声学环境的影响，我们计算了表 2 中每个环境的真实和重放音频之间幅度和相位谱的通道方向 L1 距离，其中携带用于检测重放音频的最具辨别力的信息的主导通道是以粗体标记。为了进一步研究不同声学环境的影响，我们计算了表 2 中每个环境的真实和重放音频之间幅度和相位谱的通道方向 L1 距离，其中携带用于检测重放音频的最具辨别力的信息的主导通道是以粗体标记。结果显示，真实音频和重放音频的特性会受到录音环境类型的严重影响。因此，从现有环境中学习到的模式可能不能推广到新的环境中，这促使我们探索一种从模型中删除环境特定特征的方法。
在这里插入图片描述

4 SYSTEM DESIGN

4.1 Design Objectives and Challenges

我们的目标是建立一个整体的解决方案，以检测由机器引起的所有音频攻击。具体来说，该解决方案需要满足以下设计目标：1）与现有的基于单通道的方法相比，该模型应该能够利用多通道音频中编码的丰富信息来实现增强的音频攻击检测精度；2)为了对任何机器诱导的音频攻击建立一个整体防御，该模型应该能够捕获一组通用的声学特征，以区分真正的语音和机器诱导的音频;3)模型仅依赖于与环境无关的特征，在不同的声环境中保持良好的检测性能。
Challenges 为了设计这样一个整体的、健壮的系统，我们必须解决以下挑战:1)基于可用性考虑，智能音频设备中嵌入的语音接口需要快速的系统响应。为了实现及时检测，音频攻击检测系统应该能够仅依靠一小部分音频(如1秒)做出决策;2)攻击音频可能由不同类型的扬声器(如独立扬声器、智能手机内置扬声器和超声波扬声器)引起，这些扬声器具有不同的频率响应。因此，该模型需要能够捕获所有播放设备中普遍存在的一般特征；3)明确地收集所有常见声环境的标记数据在实践中是相当困难的，因此更希望在不需要标记数据的情况下，使模型能够推广到新的声环境中，从而实现鲁棒防御。

4.2 Prepossessing

在真实世界的应用场景中，检测模型应该能够依靠麦克风阵列录制的流音频的一小段来做出决定。段的长度L应设置得尽可能短，以实现实时应用的及时检测，同时保持较高的识别精度。在我们的实现中，我们选择将L设置为1秒。这给了我们一个大小为L * C的多声道音频信号段，其中c是麦克风阵列的信道数。我们不是直接对原始波形进行操作，而是利用音频信号，从短时傅里叶变换(STFT)获得的功率大小创建一个统一的时频图，它显示了每个频率分量的强度如何随时间变化。具体来说，我们保留整个音频信号段，不应用语音活动检测，并使用滑动窗口将信号处理成帧长为10 ms，步长为5 ms的重叠帧。然后我们将Hann窗口函数应用于每一帧，并使用STFT计算其频谱，快速傅里叶变换的长度设置为512。对于44.1kHz采样的音频信号，每个音频通道的时频映射的维数为199(时域)× 257(频域)。类似地，我们通过计算复数 STFT 值的角度（以弧度为单位）将相位信息处理成相同大小的时频图，并将相位图与幅度图叠加在一起。对于 c 声道音频信号，用作我们网络输入的最终特征图形状是 199 * 257 * 2C。

4.3 Multi-channel Replay Attack Detection Network

预处理后，音频信号将被处理成类似图像的特征图，这使我们能够利用计算机视觉领域对卷积神经网络 (CNNs) 的丰富研究来指导我们的音频攻击检测网络的设计。具体而言，我们建议根据不同的使用场景探索两种类型的网络配置:(1)第一类:大型、强大的网络，具有更强的表征能力，能够为桌面或云应用提供更高的攻击检测精度;(2)第二类:快速和轻量级网络，提供更多的计算和能源节约，适合移动和物联网部署。
Design of Type I Network. 受先前关于处理图像数据的CNN架构的研究的启发，我们使用由堆叠的卷积层和小型滤波器(例如，3×3)和池化层组成的模块来配置我们的第一类网络。事实是，与大型卷积过滤器相比，多层小卷积过滤器一样可以实现有效的接受域大层,但带有数量较少的参数(例如,两个堆叠3×3层有一个有效的5×5场,而三个堆叠3×3层有一个有效的7×7场),这使得模型更小，更容易优化。此外，将一个带有大型滤波器的卷积层分解为多个层，通过注入更多的非线性激活函数(例如，校正线性单元(ReLU))解锁额外的非线性层，这有助于网络捕获数据中的复杂模式。
Design of Type II Network. 在我们的第二类网络设计中，我们采用了MobileNet中提出的架构来压缩模型大小，并在保持相对较高的检测精度的同时实现高效检测。MobileNet与传统深度网络(例如GoogLeNet、DenseNet和ResNet)相比的关键创新是深度可分离卷积和瓶颈残块的使用，其目的是用需要少得多的参数的深度可分离卷积取代昂贵的标准卷积层。如图6(a)和6(b)所示，将标准的卷积运算替换为两种不同的卷积运算的组合，即深度卷积和逐点卷积。
在这里插入图片描述
与标准卷积组合所有输入通道不同，深度卷积分别对每个通道进行卷积。然后使用带有1 × 1核的逐点卷积将深度卷积操作的输出通道组合起来。对于 M 个输入通道、N 个输出通道和 D_kXD_k 核的卷积运算，这种变换显着降低了 1/N + 1/D_k² 倍的计算成本，这对于处理具有大量输入通道的多通道音频信号特别有帮助（例如，6 通道音频信号将产生 12 通道输入特征图）。利用这种深度卷积，我们可以进一步构造反向残差块(图6©)，通过添加扩展层，将压缩的低维表示扩展到高维空间，并添加投影层，将过滤后的表示投影回低维子空间。扩展比率𝑡用于控制表示的扩展程度。此外，在块之间增加了一个剩余的快捷连接，以加速优化过程。一个宽度乘子超参数被用来进一步缩放模型，通过增加/减少所有层的通道数量的一个因子α。
Network Structure. 本文提出的音频攻击检测网络的总体结构如图7所示。
在这里插入图片描述
具体来说，该网络由三个部分组成:一个CNN特征提取器，一个全连接(FC)真实/攻击音频分类器，以及一个只涉及环境独立训练的可选域鉴别器，将在第5节详细介绍。第一类网络建立在 VGG-16 网络之上，根据多声道音频修改输入声道数，输出神经元数设置为 2。我们基于MobileNetV2构建了第二类网络，并对网络结构进行了类似的修改，以适应多通道音频攻击检测任务。

4.4 Optimization

攻击检测被建模为二进制分类问题（即真实语音或机器诱导的音频），并且网络以端到端的方式从多声道音频的原始波形到预测标签进行训练，预处理单元（幅度和相位频谱图提取）作为网络的一部分实现。我们使用交叉熵作为分类损耗来训练网络。由于人类声音样本收集困难较大,公共音频攻击数据集常常遭受数据分布的类不平衡问题是偏向于攻击音频类(例如,真正的音频与重放音频的比列在ReMASC数据集大约是1:5)。这对深度学习模型训练提出了挑战，因为少数类(即真实语音)更重要，因此对分类错误更敏感。为了解决类的不平衡问题，在训练过程中，我们根据训练集中可用的样本数量对每个类的交叉熵进行重新加权。使用β₁=0.9和β₂=0.999的ADAM优化器对网络进行总计100次的训练。在学习速率方面，采用了步进学习速率衰减结合warmup(是一种学习率优化方法） ，其中学习率最初设置为一个小值，在前 20 次中增加 10 倍，然后每 20次减少一半。为了稳定训练过程和防止过拟合，还采用了批处理归一化层和l2权值正则化。

5 DOMAIN-INVARIANT REPRESENTATION LEARNING

基于学习的预测建模方法严重依赖于训练数据进行预测，如果提供的训练样本不能准确反映实际数据的底层分布，其性能很可能会下降。基于学习的预测建模方法严重依赖于训练数据进行预测，如果提供的训练样本不能准确反映实际数据的底层分布，其性能很可能会下降。为了解决这个问题，我们从计算机视觉领域中域适应技术的最新成功中汲取灵感，采用无监督域适应方案来实现域不变表示学习。具体来说，是让w_f和w_c来分别表示提取器和分类器的参数特征。如在第四节中提到的网络训练分类损失L_c(w_f，w_c)来认识真正/攻击音频。为了帮助提取器学习域不变特性，我们在训练中引入了一个新的带有参数w_d的域鉴别器。这个域鉴别器共享与分类器相同的架构但是鉴别器的目的是区分源域训练样本和目标域训练样本通过最小化域分类损失L_d(w_f,w_d)。域不变训练过程的目的是寻找参数集w_f来最小化音频分类损失L_c同时最大化域分类损失L_d，这可以通过最小化以下综合损失函数实现：𝐿(𝑤𝑓,𝑤𝑐,𝑤𝑑 ) = 𝐿𝑐 (𝑤𝑓,𝑤𝑐 ) − 𝜆 · 𝐿𝑑(𝑤𝑓,𝑤𝑑 )。其中𝜆是一个在训练中学习特征映射对控制域鉴别器的影响的权重因子。这可以通过在网络中插入一个梯度反转层来实现，该层在前向传播过程中实现恒等函数，并在反向传播过程中通过将梯度乘以负标量（i.e, 𝜆 ）来反转梯度。经过训练后，特征提取器将学习提取对检测各种音频攻击既具有鉴别性又不随声环境变化而变化的特征。

6 ATTACK IMPLEMENTATION

为了评估我们所设计的机器诱导音频攻击检测方法，我们复制了一组具有代表性的音频攻击。除了传统的重放攻击，我们使用了最近发布的数据集(第7节)，我们通过以下步骤生成了一组对抗语音样本，并在各种环境条件下进行了广泛的现实世界实验。
Modulated Replayed Attack. 由于重放攻击带来的安全问题，已经开发了许多防御方法来检测重放的音频信号，通过检查由回放设备引起的独特的声学失真（例如，频域中的能量分布）。为了绕过这种防御，最近的一项研究设计了一种新型的重放攻击，即调制重放攻击，它可以通过分析播放设备的频率响应来补偿声学失真。具体来说，在我们的实现中，频率响应是用68个单频测试信号横跨0 ∼ 4000Hz测量的。我们在三台播放设备（即华为 Nova 4、iPhone 12 Pro Max 和 HP Elitebook 1050 G1 笔记本电脑）上播放测试信号，并使用麦克风（即 ReSpeaker Core v2.0）记录播放的音频信号。然后，我们使用播放的测试信号和录音来生成一个反向滤波器，以补偿每个播放设备的声学失真。最后，我们记录了志愿者说出的 10 个原始语音命令，如表 9(a) 所示，并通过相应的反向滤波器为每个播放设备生成调制语音样本。
在这里插入图片描述
Synthesis Attack. 合成攻击通常依靠语音合成模型来产生模仿受害者语音特征的攻击音频。目前基于深度学习的合成模型可以模拟与人类相似的自然声音。为了评估合成语音，我们使用了两种最先进的语音合成模型，包括基于 WaveNet 的 Google Text-to-Speech 和基于 WaveGlow 的 Tacotron 2。WaveNet 和 WaveGlow 都是基于 CNN 的音频生成模型，利用时间依赖性来生成语音信号。对于 Google Text-to-Speech，我们直接使用 API 提供的男性说话者的预训练 WaveGlow 模型，而对于 Tacotron 2，我们使用来自女性说话者的 13,100 个语音样本训练基于 WaveGlow 的语音合成模型（即 LJ 语音数据集）。我们使用这两个模型分别生成表 9(a) 中列出的 10 个原始语音命令。
Hidden Voice Command. 隐藏语音命令是一种模糊的语音命令，人类无法理解，但智能音频系统可以解释。隐藏语音命令是一种模糊的语音命令，人类无法理解，但智能音频系统可以解释。为了生成隐藏的语音命令，攻击会首先从正常命令中提取语音特征，然后训练一个网络，用这些特征重构语音，同时不断更新网络参数和特征提取，使其无法被人类理解。攻击可以是黑盒攻击(通过反转MFCC特征)，也可以是白盒攻击(通过对目标语音识别模型应用基于梯度下降的方法)。最近的一项研究甚至提出了一种更实用的隐藏语音命令，旨在欺骗语音识别模型的特征提取过程，使攻击成为黑盒并有效。为了评估我们的系统，我们使用了14个公开发布的隐藏语音命令，包括10个常规的隐藏语音命令和4个实用的隐藏语音命令。
Inaudible Attack. 攻击者可以通过将语音命令调制到超声波频段来发起听不见的攻击（例如，超过20KHz）。超声信号虽然不能被人耳感知，但由于其固有的非线性特性，可以被音频智能设备中的麦克风解调。为了实现听不见的攻击，我们首先使用 Google Text-to-Speech API 生成表 9(a) 中列出的 10 个原始语音命令。然后，我们使用幅度调制将语音命令调制到 35KHz 的基带信号上，其中调制后的声音完全听不见，并且可以通过麦克风进行解调。调制信号在 Keysight 33500B 信号发生器上生成，并由超声波扬声器 (Avisoft Bioacoustics Vifa) 播放。
Audio Adversarial Example. 目前的可理解音频系统主要依靠深度神经网络进行语音识别，而深度神经网络本身就容易受到精细而难以察觉的对抗干扰。攻击者可以将对抗性扰动注入音频信号以欺骗深度学习模型。我们实现了先前关于音频对抗示例的研究中提出的基于梯度的扰动生成，其目标是欺骗端到端语音识别（即 DeepSpeech）。为了实施攻击，我们首先使用 Google text-tospeech API 生成 10 个原始语音命令（即附录表 9(a) 中列出的原始命令），然后计算对抗性扰动以使用相应的目标命令（即目标附录表 9(b)) 中列出的命令。
在这里插入图片描述
然后将扰动添加到攻击的原始语音命令中。

7 PERFORMANCE EVALUATION

7.1 Experimental Methodology

为了在重放攻击下评估我们的系统，我们使用了一个由4个不同的麦克风阵列收集的公共数据集。对于更高级的音频攻击（例如，隐藏的语音命令、听不见的攻击），我们使用公共数据集中共享的 3 个代表性麦克风阵列来记录攻击声音和真实的人类语音以进行评估
7.1.1 Public Replay Attack Dataset. 为了评估我们的系统在重放攻击下的性能，我们使用了一个公共数据集ReMASC，该数据集由一组4个麦克风阵列和2~ 7个音频通道收集而来。我们将数据集划分为核心训练集和评估集，如 ReMASC 中所述。训练集和评价集是不相交的，分别包含26、946和17、581个音频样本。

Devices. 为了模拟商用智能音频设备中的多通道录音，ReMASC 使用了 4 个具有不同音频通道数量的麦克风阵列，如图 8 所示。
这些麦克风阵列包括：1) Google AIY Voice Kit（2 个通道）； 2) ReSpeaker 4-mic线性阵列（4通道）； 3) ReSpeaker Core V2 (6 通道) 4) Amlogic A113X1 (7 通道)。为了产生攻击声音，ReMASC 使用了 3 种不同的播放设备，包括 Sony SRSX5、Sony SRSX11、Audio Technica ATH-AD700X 耳机和 iPod Touch。
Environments. 该数据集包含4种不同声学环境下采集的9240个真实语音样本和45,472个重放录音：1）户外（Env-A）：一个户外学生广场，具有各种背景噪音，如聊天、交通和风; 2）Indoor #1（Env-B）：安静的书房； 3) Indoor #2 (Env-C)：一个休息室，音乐播放器和电视在后台被破坏； 4) 车载 (Env-D)：在不同区域（例如校园、住宅区、市区和高速公路）的移动车辆（Dodge Grand Caravan）内，速度范围为每小时 3 至 40 英里。根据每种环境，以不同的距离 (0.5-6m) 和角度 (0-90 度) 记录样本。每种环境的数据量和涉及的发言者数量见附录表 10。

7.1.2 Self-collected Audio Attack Dataset. 除了传统的重放攻击，我们还收集了其他 5 种更高级的音频攻击的数据样本，这些攻击在不同的环境中使用多个麦克风阵列，遵循第 6 节中描述的实现。表3显示了自收集数据集的详细信息。
Devices. 使用三个麦克风阵列收集数据，即 Google AIY 语音套件、ReSpeaker 4-Mic 线性阵列和 ReSpeaker core V2，如图 8 所示。对于听不清攻击，我们使用一个超声音箱(即Vifa超声动态音箱)，而对于其他音频攻击，我们使用2个智能手机(即华为Nova 4和iPhone 12 pro max)和一台笔记本电脑(即惠普EliteBook 1050G1)作为播放设备，如图9(a)所示。
Environments. 在3个不同的房间环境中采集攻击音频和真实语音样本，如图9(b)-(d)所示，其中包括两个客厅和一个卧室。
Genuine Speech and Attack Setup. 我们招募了6名年龄在22岁和30岁之间的参与者(即4男2女)来收集真实的语音样本。攻击音频和真实语音多在参与者/扬声器与麦克风阵列之间的3个不同距离上进行记录，即30cm、50cm、100cm，而听不清攻击由于有效距离较短，只能在10cm和30cm进行记录。此外，对于真实的语音和对录音距离不太敏感的攻击(即隐藏的语音指令和合成攻击)，我们进一步进行了实验，在远程场景下采集样本，将攻击距离分别扩大到200cm和300cm。用于录制攻击音频的设备位置如图10所示。

7.1.3 Evaluation Metrics. 我们使用两个指标来评估系统的性能:(1)识别准确度(RA):音频攻击检测可以被视为一个二值分类问题。识别准确率是音频样本被正确分类的百分比;(2)等错误率(Equal Error Rate, EER): EER是评价重放攻击检测系统的常用指标。它取决于两种检测错误率:错误接受率(FAR)和错误拒绝率(FRR)。EER对应于两种检测错误率近似相等的点。
7.1.4 Baseline Models. 我们将我们的结果与 4 个最先进的基线重放攻击检测模型进行比较：(1) Gong等人提出了一种多通道重放攻击网络，该网络由可学习的滤波和波束形成器、频率卷积层和多个堆叠的LSTM层进行分类组成；(2) CQT-LCNN，采用恒Q变换(CQT)提取的对数功率幅谱作为特征，轻卷积网络(LCNN)作为分类器的单通道重放攻击检测模型。在ASVspoof2019物理访问(PA)场景中，这个单一模型达到1.23%的EER，如果使用具有其他前端特征的模型进行评分级融合，可以进一步提高到0.54%的EER(排名第二);(3) LFCC-LCNN，采用线性倒谱系数(LFCC)作为前端，LCNN作为后端分类器，是一种基于单通道的模型。该模型被用作ASVspoof2021挑战的官方基线;(4) RawNet2，这是一个单通道模型，旨在通过训练一个端到端的CNN-GRU网络(带有自卷积层)来直接从原始音频波形中提取有用的线索，从而释放手工制作特征的约束。基于svm的RawNet2和高光谱分辨率LFCC融合可实现低至1.12%的EER，在ASVspoof2019逻辑接入场景(LA)中排名第二。

7.2 Overall System Performance for Replay Attack

我们首先使用公共ReMASC数据集评估所提议的系统在重放攻击上的整体性能。为了进行公平的比较，我们对所有基线方法都使用了原始论文中建议的默认数据分离方案，并像Gong等人那样为每个记录设备开发了一个单独的模型。对于第二类网络，我们设备1和2使用宽度乘法器α=1，设备3和4使用宽度乘法器α=1.5。在相同的学习速率调度策略下，每个模型使用32的批量大小训练100次我们的，第二类模型的初始学习速度为1x10^-3,其他模型的为1x10^-5。我们实现了所有的基线方法，并将实验结果与表4中提出的模型进行了比较。
在这里插入图片描述
默认情况下，我们使用从第一个通道收集的信号来训练基于单通道的模型。对于Gong等人提出的基于波束形成的网络，我们报告了其在原始论文中提出的最佳结果(RA没有显示，因为它没有被报道)。从结果可以看出，在所有基于单通道的方法中，RawNet2的总体性能是最好的，甚至能够产生比Gong等人提出的基于多通道波束形成的2通道记录设备1的EER还要低的EER。然而，总的来说，我们观察到基于多通道的方法仍然优于基于单通道的方法，随着可用通道数量的增加，性能增益变得更加明显。提出的第一类网络能够持续地实现更好的EERs,比现有的基于波束形成的网络低20%- 55%。与基于波束形成的网络相比，第二类网络也可以减少高达31%的EER。这些结果证明，与使用波束形成器将多通道音频信号合并成增强信号相比，利用所有可用通道的幅度和相位信息可以获得更好的音频攻击检测性能。
Inference Time. 推理时间对实时检测至关重要。为了研究模型的推理时间，我们在Nvidia 2080Ti GPU上进行了实验，批次大小为16，重复100次实验来测量平均推理时间。结果表明，提出的第一类模型所需时间为36.5ms, 第二类模型仅为23.3ms。与商业说话人识别模型(40ms)和语音识别模型(600ms)的延迟相比，提出的检测模型的延迟足以实现对各种实时应用的任何类型的音频攻击的及时检测。
Model Size. 对于具有足够存储和计算资源的桌面或云应用程序，我们通常优先考虑性能而不是模型的大小。但是，对于需要以设备上的方式离线执行模型的移动和嵌入式应用程序，模型的大小应该足够小以匹配资源限制（例如，内存、计算资源和功耗）。我们第一类网络的模型大小约为479MB，我们相信它可以部署在大多数桌面或云应用程序中。对于我们的第二类网络，当α = 1时，模型大小只有18MB，当α = 1.5时，模型大小为40MB。这表明，通过利用反向残差模块，提出的第二类网络是非常轻量级的，同时仍然保留足够的表示能力，以实现高的攻击检测精度。

7.3 Environment-independent Detection

除了通过对来自所有环境的混合数据样本进行训练来检查模型的整体性能外，我们还在环境无关的条件下评估模型。具体来说，我们将4个环境中的一个设置为测试的目标域，而其余3个环境作为训练的源域。我们设𝜆= 0.33，使用4.4节中提到的优化技术训练模型。为了验证域自适应(DA)训练过程的有效性，我们在表5中比较了带DA的第一类模型和不带DA的模型的性能，其中也显示了基于多通道波束形成的网络的结果进行了比较。
在这里插入图片描述
此外，我们使用表6中Device 2记录的数据，将我们的模型的结果与基于单通道的方法进行比较。

从结果中我们观察到，在来自源环境的数据上训练的模型通常对新环境的可泛化性很低。特别是，Env-D（即车载环境）是模型在与环境无关的情况下泛化最困难的环境。这是因为车内设置有一些独特的声学特性(例如，道路噪音和发动机噪音，以及由于狭窄的机舱而产生的强烈混响)，而这些特性在其他环境中是学不到的。如表 6 所示，除了在 Env-B 中实现 26.4% 的 EER 的 RawNet2 之外，所有基于单通道的方法在与环境无关的场景中都表现不佳（>30% EER）。尽管如此，利用领域自适应过程，提出的网络仍然能够减少高达42.2%的EER，达到21.8%的平均EER，这比基于波束形成的网络(33.8%)和没有应用领域自适应的网络(30.3%)要低得多。

7.4 Robustness Against Other More Advanced Attacks

在本节中，我们将使用7.1.2节中描述的自收集数据集，扩展对系统鲁棒性的评估，包括其他更高级的音频攻击。我们将收集到的音频攻击样本随机分成训练集和测试集，其中60%的样本用于训练，40%的样本保留用于测试，这与ReMASC dataset4中使用的训练/测试分割比相似。然后将分离的数据集与来自 ReMASC 数据集的音频样本合并，从而为设备 1、2、3 分别产生 9596、10260、9931 个用于训练的样本和 5816、7295、6951 个用于测试的样本。
在这里插入图片描述
表 7 比较了所提出模型与基线模型的结果。正如我们所看到的，当考虑所有6种类型的音频攻击时，由于高级音频攻击的行为高度变化，大多数模型的性能与专门用于检测重放攻击的模型相比有所下降。然而，提议的第一类网络仍然能够在基线模型中实现最佳性能，在所有 3 台设备上实现 12.9% 的总体平均 EER。尽管模型尺寸紧凑，但所提出的第二类网络也能够实现相对较高的识别精度和较低的 EER，在大多数情况下超过了现有的基于单通道和多通道的模型。这些结果表明，所提出的方法能够学习一般特征，能够区分机器诱导音频和真实语音，从而实现对各种类型音频攻击的鲁棒检测。

7.5 Ablation Study

Impact of Involved Channels. 为了研究涉及的通道数量对检测性能的影响，我们通过改变输入音频通道的数量，对使用设备 2 记录的真实和重放音频数据训练一组模型，并测量由此产生的识别准确度和 EER。从图11所示的结果中，我们可以看到，当涉及到更多的通道时，识别的准确率会增加。
在这里插入图片描述
如果使用四通道，EER从17.1%下降到11.0%。这些结果验证了使用多通道音频进行音频攻击检测的有效性和优越性。
Impact of Phase Information. 为了研究相位信息对系统的影响，我们修改了所提出的第一类网络的结构，使其仅涉及幅度谱图，并评估其对模型性能的影响。我们得到设备 1、2 和 3 的识别准确率分别为 96.3%、87.9%、73.1% 和 8.6%、11.4%、29.2% 的 EER。与同时使用幅谱和相位谱作为输入的模型相比，平均EER值提高了38.8%。这一结果验证了相位谱图可以作为幅度谱图的补充信息，有助于进一步提高音频攻击检测的性能。

7.6 Model Interpretability Analysis

通过可视化模型的显著性图及其学习后的表示，我们进一步研究了我们的方法的可解释性。
Visualization of Saliency Map. 我们使用梯度加权类激活图(Grad-CAM)来可视化所提出的深度学习模型的决策过程。具体来说，GradCAM 使用目标类的梯度来生成定位图，以突出显示模型用于进行预测的输入特征图中的重要区域，从而使我们能够可视化模型的注意力。图12显示了从我们的模型中生成的GramCAM的两个示例，其中从左到右的三列分别是输入的幅度谱图、生成的CAM图像和覆盖在谱图上的CAM。
在这里插入图片描述
我们可以观察到，模型主要关注的最具判别力的区域是低频区域，同时也对高频噪声给予了一定的关注。这些研究结果与之前关于区分频率区域用于重放攻击检测的研究有很好的相关性，证明了所提出的基于学习的方法的有效性。
Visualization of Learned Representations. 为了研究学习的表示，我们从真实语音和使用设备 1 记录的每种类型的音频攻击中随机选择 20 个音频样本，并计算我们的第一类模型分类器中第一层的输出作为嵌入。我们首先使用主成分分析 (PCA) 将每个嵌入的维数降低到 100，然后使用 t 分布随机邻域嵌入 (t-SNE) 将嵌入在 2D 平面上可视化。可视化结果如图13所示。
在这里插入图片描述
从图中可以看出，真实音频样本和攻击音频样本聚类良好，验证了模型提取鉴别特征的能力。此外，虽然模型没有经过训练来区分不同的音频攻击，但我们仍然能够观察到不同类型的攻击之间的一些模式。特别是，在所有考虑的攻击中，合成攻击可以生成学习流形中最接近真实语音的音频样本，这表明我们的攻击实现中使用的基于深度学习的语音合成器可以生成类似于人类语音的逼真语音样本。

8 DISCUSSION

Integration with Intelligent Audio Systems. 开发的音频攻击检测模型可以集成到商业智能音频系统中，几乎不需要对硬件进行修改。除了独立的智能音频系统(如智能扬声器)，智能手机等移动智能音频系统还配备了多个麦克风，用于立体声录制和噪音/混响消除。由于智能手机上的麦克风阵列(通常位于手机框架的顶部和底部)与我们实验中使用的2通道设备(谷歌AIY语音套件)的尺寸相似，我们期望我们的模型可以很容易地适应智能手机的使用。此外，该模型可以简单地插入推理管道的开头，以在音频输入到达语音或说话人识别模型之前检查其合法性。根据应用场景和系统能力的不同，检测过程可以通过云服务执行，也可以直接在设备上执行。本文提出的第一类模型适合具有足够计算能力的云服务器，以实现最大的检测精度。此外，该模型可以与其他优化组件（例如注意力模块）和基于神经的对策模型并行使用，以潜在地提高性能。对于通信带宽有限的系统或对隐私要求严格的场景，也可以在本地处理数据。为了支持存储和计算资源受限的语音可控移动和物联网设备上的设备推理，音频攻击检测模型应该尽可能紧凑和节能。在本研究中，我们提供了一种快速和轻量级的第二类网络，与提议的第一类网络相比，它大约轻12倍，快1.5倍，但作为资源受限设备的一种选择，性能略有降低。在未来的工作中，可以采用模型压缩和加速技术来进一步提高模型的效率。
Potential Evasion. 基于数据驱动的方法，提出的模型的有效性需要从现有的音频攻击方法中收集样本进行攻击分析。因此，有能力访问已建立的配置文件的复杂攻击者可以利用这一知识设计自适应攻击来绕过系统。例如，在学习的表示空间中，制作一个接近真实音频样本的攻击音频样本可能会迫使模型错误地接受它。然而，在实践中发起这种适应性攻击仍然面临着几个挑战。首先，攻击者无法直接以数字形式调节接收到的信号，因为模型只接受通过物理通道（即由麦克风阵列拾取）接收到的信号作为有效输入，而在物理环境中传播将不可避免地离开音频信号的一定程度的可追溯模式。虽然通过激光等其他方式注入信号可以减轻空中传播引起的失真，但这种攻击一次只能将信号注入一个麦克风通道，因此可以通过在之前交叉检查来自所有麦克风通道的信号来防御执行命令。攻击者还可能通过使用多个播放设备(例如一对立体声扬声器或多声道环绕声系统)操纵声场来控制每个麦克风中接收到的信号，从而试图逃避检测。然而，由于声音的低方向性和绕射性，很难对每个传声器通道接收到的信号进行精确的操作。此外，此类攻击仍然涉及相同的记录和回放过程，这将导致失真投射到幅度和相位域中。此外，仅仅击败检测模型是不够的。由于我们的模型是在实际音频处理模型(如语音或说话人识别模型)之前提出的一个附加模块，攻击者需要绕过这两个模型才能成功攻击，这在实践中仍然具有挑战性。

9 CONCLUSION

在本文中，我们提出了一种通过利用现代智能音频系统上现成的麦克风阵列来检测机器诱导的音频攻击的整体解决方案。我们利用从多声道音频中获得的幅度和相位信息，并训练一个深度学习模型，以捕捉人类语音和从回放设备发射的对抗音频之间的根本区别。为了提高对新声环境的泛化能力，我们使用无监督域自适应来帮助模型学习提取域不变特征。为了提高对新声环境的泛化能力，我们使用无监督域自适应来帮助模型学习提取域不变特征。在公共多通道重放攻击数据集和自收集的高级音频攻击数据集上的大量实验表明，该方法可以实现低至 6.6% 的 EER 检测各种音频攻击，即使在具有挑战性的与环境无关的情况下。