【论文学习】《Who is Real Bob? Adversarial Attacks on Speaker Recognition Systems》-CSDN博客

本文链接：https://blog.csdn.net/weixin_42721167/article/details/124490777

研究提出了一种名为FAKEBOB的新型对抗攻击，针对说话人识别系统(SRSs)，能在黑盒环境下有效生成对抗样本。FAKEBOB通过优化算法平衡对抗语音的强度与不可感知性，成功绕过开源及商业SRSs，实现了高成功率的目标攻击，同时在物理世界中通过空气传播仍具有效果。研究还包括对防御方法的评估，显示现有防御对FAKEBOB无效，强调了提高SRSs安全鲁棒性的紧迫性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

《Who is Real Bob? Adversarial Attacks on Speaker Recognition Systems》论文学习

摘要

说话人识别(SR)作为一种生物特征认证或识别机制在我们的日常生活中得到了广泛的应用。SR的流行带来了严重的安全问题，最近的对抗攻击证明了这一点。然而，这种威胁在实际的黑盒场景中的影响仍然是未探索的，因为当前的攻击只考虑白盒场景。

在本文中，我们首次对SR系统(SRSs)进行了全面和系统的对抗攻击研究，以了解其在实际黑盒场景下的安全弱点。为此，我们提出一种对抗攻击，名为FAKEBOB，来制作对抗样本。具体地说，我们将对抗样本生成作为一个优化问题，结合对抗样本的置信度和最大失真来平衡对抗语音的强度和不可感知性。一个关键的贡献是提出了一种新的算法来估计分数阈值，这是SRSs中的一个特征，并将其用于优化问题来解决优化问题。我们证明，FAKEBOB在开源和商业系统上都达到 $99\%$ 的目标攻击成功率。我们进一步证明，当在现实世界中通过空气播放时，FAKEBOB在开源和商业系统上也都是有效的。此外，我们还进行了一项人类研究，表明人类很难区分说话者的原始声音和对抗声音。最后，我们展示了四种很有前景的语音识别领域对抗攻击的防御方法在SRSs对FAKEBOB无效，这需要更有效的防御方法。我们强调，我们的研究窥探了对SRSs的对抗攻击的安全含义，并实际上促进了提高SRSs的安全鲁棒性。

I 介绍

说话人识别(《An overview of text-independent speaker recognition: From features to supervectors》)是一种从包含说话人音频特征的话语中识别一个人的自动技术。从生物特征认证(《TD Bank voiceprint》)、法医鉴定(《Forensic and automatic speaker recognition system》)到智能设备个性化服务(《Secure smart home: A voiceprint and internet based authentication system for remote accessing》)，说话人识别系统(SRSs)在我们的日常生活中无处不在。机器学习技术是实现SRSs(《An improved uncertainty propagation method for robust i-vector based speaker recognition》)的主流方法，但它们容易受到对抗攻击(如《Evasion attacks against machine learning at test time》，《Intriguing properties of neural networks》，《Advanced evasion attacks and mitigations on practical ml-based phishing website classifiers》)。因此，理解SRSs在对抗攻击下的安全含义是至关重要的。

尽管对图像识别系统的对抗攻击已经成功移植到白盒场景(如《Audio adversarial examples: Targeted attacks on speech-to-text》，《Commandersong: A systematic approach for practical adversarial voice recognition》)和黑盒场景(如《Targeted adversarial examples for black box audio systems》，《Adversarial black-box attacks for automatic speech recognition systems using multi-objective genetic optimization》)的语音识别系统上，但对SRSs的研究相对较少。从本质上讲，话语信号由两大部分组成：潜在的语义内容和说话人的特征。为了提高性能，语音识别将最小化与说话人相关的变化，以确定潜在的文本或命令，而说话人识别将把语音变化作为外来噪声来确定语音信号的来源。因此，针对语音识别系统的对抗攻击可能对SRSs无效。

对SRSs的对抗攻击旨在从某个源说话者发出的声音中制作一个样本，这样被攻击的系统就会将其错误地分类为已登记的说话人之一(非目标攻击)或目标说话人(目标攻击)，但仍被普通用户正确识别为源说话人。虽然目前对SRSs(《Crafting adversarial examples for speech paralinguistics applications》，《Fooling end-to-end speaker verification with adversarial examples》)的对抗攻击很有前途，但它们存在以下三个局限性：(1)通过假设攻击者可以访问目标SRSs的信息，它们被限制在白盒场景中。在一个更现实的黑盒场景中的攻击仍然是未探索的。(2)他们只考虑闭合集识别任务(《Crafting adversarial examples for speech paralinguistics applications》)(总是将任意声音分类为已登记的说话者之一(《Factor analysis method for text-independent speaker identification》))或说话人验证任务(《Fooling end-to-end speaker verification with adversarial examples》)(检查输入声音是否由唯一已登记的说话人发出(《Speaker verification using adapted gaussian mixture models》))。开放集识别任务(《Open-set speaker identification using adapted gaussian mixture models》)严格地包含了封闭集识别和说话人验证，对它的攻击仍然是未探索的。(3)他们不考虑空气中的攻击，因此不清楚他们的攻击在现实世界中空中播放时是否仍然有效。因此，在本工作中，我们研究了实际黑盒环境下SRSs所有三个任务的对抗攻击，试图了解实际中SRSs在对抗攻击下的安全弱点。

在这项工作中，我们主要关注黑盒场景，它假设对手可以获得最多的决策结果和每个输入语音的评分。因此，黑盒场景中的攻击比现有的白盒攻击(《Crafting adversarial examples for speech paralinguistics applications》，《Fooling end-to-end speaker verification with adversarial examples》)更实用，也更具有挑战性。我们强调，在不同的识别任务(《Fundamentals of Speaker Recognition》)中，SRSs的评分和决策机制是不同的。特别地，我们考虑了40种攻击场景(如图2所示)，这些场景在攻击类型(有针对性的vs.无针对性的)、攻击渠道(API vs. 空气传播)、源和目标说话者的性别以及SR任务(II-B)方面完全不同。我们在16个典型的攻击场景中演示我们的攻击。

要发动这样一场实际的攻击，需要解决两个技术挑战：(C1)在黑盒环境中制作对抗样本，尽量不被察觉；(C2)使攻击切实可行，也就是说，对抗样本对未知的SRS有效，即使在物理世界中通过空气传播。在本文中，我们提出了一个实用的黑盒攻击，名为FAKEBOB，它能够克服这些挑战。

具体地说，我们将对抗样本生成定义为一个优化问题。优化目标由置信参数和噪声振幅最大失真 $L_{\infty}$ 范数来参数化，以平衡对抗声音的强度和不可感知性，而不是使用噪声模型(《Commandersong: A systematic approach for practical adversarial voice recognition》，《Robust audio adversarial example for a physical attack》，《Imperceptible, robust, and targeted adversarial examples for automatic speech recognition》)，由于其设备和背景依赖性。我们还将分数阈值(SRSs中的一个关键特性)纳入优化问题。为了解决优化问题，我们利用了一种有效的梯度估计算法，即自然进化策略(NES)(《Black-box adversarial attacks with limited queries and information》)。然而，即使有估计的梯度，现有的基于梯度的白盒方法(如《Explaining and harnessing adversarial examples》，《Adversarial examples in the physical world》，《Commandersong: A systematic approach for practical adversarial voice recognition》，《Towards evaluating the robustness of neural networks》)都不能直接用于攻击SRSs。这是由于分数阈值机制，如果预测分数小于阈值，攻击就失败。为此，我们提出了一种估计阈值的新算法，在此基础上，我们利用基本迭代法(BIM)(《Adversarial examples in the physical world》)估计梯度来解决优化问题。

我们评估了FAKEBOB对研究界流行的开源平台Kaldi中的3个SRSs(即ivector-PLDA(《Frontend factor analysis for speaker verification》)、GMM-UBM(《Speaker verification using adapted gaussian mixture models》)和xvector-PLDA(《Speaker recognition for multi-speaker conversations using x-vectors》))和2个商业系统(即：Talentedsoft和Microsoft Azure是私有的，没有任何关于内部设计和实现的公开信息，因此完全是黑箱。我们使用16种典型攻击场景(40种)评估FAKEBOB，基于以下五个方面：(1)有效性/效率，(2)可迁移性，(3)实用性，(4)不可感知性，和(5)鲁棒性。

结果表明，FAKEBOB在ivector-PLDA、GMM-UBM和xvector-PLDA系统的所有任务上平均达到 $99\%$ 的目标攻击成功率(ASR)，在商业系统Talentedsoft上平均在2500个查询内达到 $100\%$ 的目标攻击成功率(V-B)。为了证明可迁移性，我们在跨架构、跨数据集、跨参数的情况下，以及商业系统Microsoft Azure上，对ivector-PLDA、GMM-UBM和xvector-PLDA系统的可迁移性攻击进行了综合评估。除了Microsoft Azure的说人验证外，FAKEBOB的可转移性(攻击成功率)达到 $34\%-68\%$ 。可迁移率可以通过制作高可信度的对抗样本来提高，但代价是失真增加。为了进一步证明实用性和隐蔽性，我们在物理世界中发起空中攻击，并在亚马逊土耳其机器人平台上进行了人类评估。结果表明，FAKEBOB在现实世界中对开源系统和Microsoft Azure的开放集识别任务(V-D)进行空中播放时是有效的，人类很难区分原始音频和对抗音频的说话人(V-E)。

最后，我们研究了四种在语音识别领域有前景的防御方法：音频压缩(《Commandersong: A systematic approach for practical adversarial voice recognition》)、局部平滑、量化和基于时间依赖的检测(《Characterizing audio adversarial examples using temporal dependency》)，因为它们缺乏针对SRSs的对抗攻击的领域特异性防御方案。结果表明，这些防御方法对FAKEBOB的影响有限，表明FAKEBOB是一种实用的、强大的对SRSs的对抗攻击。

我们的研究揭示了SRSs在黑盒对抗攻击下的安全弱点。这个弱点可能会导致许多严重的安全问题。例如，攻击者可以对金融交易(《TD Bank voiceprint》，《Citi uses voice prints to authenticate customers quickly and effortlessly》)和智能设备(《Secure smart home: A voiceprint and internet based authentication system for remote accessing》)发起对抗攻击(如FAKEBOB)，绕过生物识别认证，对高安全性智能语音控制系统(《The voice-enabled car of the future》)发起后续语音指令攻击，如：司令之歌(《Commandersong: A systematic approach for practical adversarial voice recognition》)和隐藏的声音命令(《Hidden voice commands》)。对于使用Dragon Drive(《The voice-enabled car of the future》)的声控汽车，攻击者可以使用FAKEBOB绕过语音生物识别，从而发动命令攻击来控制汽车。即使对于商业系统，在这种实际的黑盒对抗攻击下，它也是一个重大的威胁，这需要更健壮的SRSs。为了进一步阐明，我们讨论了潜在的缓解和进一步的攻击，以理解本主题中的军备竞赛。总之，我们的主要贡献是：
（1）据我们所知，这是首次在黑盒环境下对SRSs进行有针对性的对抗攻击的研究。我们的攻击不仅使用基于梯度估计的方法，而且还将分数阈值纳入对抗样本生成。提出的分数阈值估计算法在SRSs中是唯一的。
（2）我们的黑盒攻击不仅针对现有白盒攻击所考虑的说话人识别任务，还针对更一般的任务，开放集识别，这是以前的对抗攻击没有考虑到的。
（3）我们的攻击被证明对流行的开源系统和商业系统Talentedsoft是有效的，对流行的开源系统和Microsoft Azure的开放集识别任务是可转移和实用的，即使在物理世界中通过空气播放。
（4）我们的攻击是鲁棒的四种潜在的防御方法，在语音识别领域很有前途。我们的研究揭示了对SRSs的对抗攻击的安全影响，这需要更健壮的SRSs和更有效的领域特定防御方法。

II 背景

在本节中，我们初步介绍说话人识别系统(SRSs)和威胁模型。

II-A 说话人识别系统(SRS)

说话人识别是利用说话人的特征，根据说话人的话语识别身份的自动化技术。(《Fundamentals of Speaker Recognition》)已经被积极研究了40年，目前被一些开源平台(如Kaldi和MSR Identity)和商业解决方案(如Microsoft Azure、Amazon Alexa、Google home、Talentedsoft和SpeechPro VoiceKey)支持。此外，NIST从1996年开始积极组织说话人识别评价。

SRSs的概述
图1是典型SRS的概述，包括五个关键模块：特征提取、通用背景模型(UBM)构建、说话人模型构建、评分模块和决策模块。上面是离线阶段，下面两部分是在线阶段，由说话人注册和识别阶段组成。

在离线阶段，使用特征提取模块从背景声音(即语音训练数据集)中提取的声学特征向量对UBM进行训练。UBM旨在创建数据集中每个人的平均特征的模型，在最先进的SRS中被广泛使用，以增强鲁棒性和提高效率(《An overview of text-independent speaker recognition: From features to supervectors》)。在说话人登记阶段，利用UBM和特征向量为每个说话人登记说话人的声音，建立说话人模型。在说话人识别阶段，给定一个输入语音 $x$ ，使用说话人模型计算所有登记说话人的分数 $S (x)$ ，该分数将与决策 $D (x)$ 一起作为识别结果发出。

特征提取模块将原始语音信号转换为承载信号特征的声学特征向量。各种声学特征提取算法已被提出，如Mel-Frequency倒谱系数(MFCC)(《Voice recognition algorithms using mel frequency cepstral coefficient (MFCC) and dynamic time warping (dtw) techniques》)，谱子带质心(SSC)(《Spectral subband centroids as complementary features for speaker authentication》)和感知线性预测(PLP)(《Perceptual linear predictive (PLP) analysis of speech》)。其中，MFCC是实践中最常用的(《An overview of text-independent speaker recognition: From features to supervectors》，《Fundamentals of Speaker Recognition》)。

说话人识别的任务
SRSs有三种常见的识别任务：开放集识别(OSI)(《Open-set speaker identification using adapted gaussian mixture models》)，近集识别(CSI)(《Factor analysis method for text-independent speaker identification》)和说话人验证(SV)(《Speaker verification using adapted gaussian mixture models》)。

OSI系统允许多个说话人是注册在注册阶段，形成一个说话人组 $G$ 。对于任意输入的语音 $x$ ，系统根据所有已登记的说话人的分数和一个预设的(分数)阈值 $θ$ 来决定 $x$ 是由其中一个说话人发出还是不发出。形式上，设说话人组 $G$ 有 $n$ 个说话人 ${1,2,...,n\}$ ，决策模块输出 $D (x)$ ：
$\begin{cases} \underset {i \in G} {argmax}[S(x)]_i, & \text{if $\underset {i \in G} {max}[S(x)]_i \ge \theta$}; \\ \text{reject}, & \text{otherwise}. \end{cases}$ 其中 $[S(x)]_i \ \text{for} \ i \in G$ 表示声音 $x$ 是由说话人 $i$ 发出的得分。系统直观地将输入语音 $x$ 分类为说话人 $i$ ，当且仅当说话人 $i$ 的得分 $S(x)]_i$ 在所有登记的说话人中最大，且不小于阈值 $θ$ 。如果最大分数小于 $θ$ ，系统直接拒绝声音，也就是说，它不是由任何登记的说话人发出的。

CSI和SV系统完成了与OSI系统类似的任务，但有一些特殊的设置。CSI系统从不拒绝任何输入声音，也就是说，一个输入总是被分类为已登记的说话人之一。而SV系统可以只有一个注册说话人，并检查输入声音是否由注册说话人发出，即接受或拒绝。

文本依赖性
SRSs既可以是文本依赖性的，即合作说话人被要求说出一个预先定义好的句子；也可以是文本独立性的，即说话人可以说任何话。前者在短话语上准确率较高，但总是需要大量重复同一句的话语，因此只在SV任务中使用。后者可能需要更长的发音才能达到较高的准确性，但实际上它更通用，可以用于所有任务(参见《Fundamentals of Speaker Recognition》)。因此，在这项工作中，我们主要演示我们对文本无关的SRSs的攻击。

SRS的实现
ivector-PLDA(《Frontend factor analysis for speaker verification》，《Analysis of critical metadata factors for the calibration of speaker recognition systems》)是学术界(《Kaldi》，《Investigation on neural bandwidth extension of telephone speech for improved speaker recognition》，《The CORAL+ algorithm for unsupervised domain adaptation of PLDA》)和工业界(《Tencent VPR》，《Fosafer VPR》)实现SRSs的主流方法。它实现了所有说话人识别任务(《End-to-end textdependent speaker verification》，《A review on deep learning approaches in speaker identification》)的最先进的性能。另一种是基于GMM-UBM的方法，训练一个高斯混合模型(GMM)(《Speaker verification using adapted gaussian mixture models》，《Robust text-independent speaker identification using gaussian mixture speaker models》)作为UBM。基本上，GMM-UBM倾向于在短话语(《Speaker recognition from whispered speech: A tutorial survey and an application of time-varying linear prediction》)上提供比较(或更高)的准确性。

最近，深度神经网络(DNN)被用于语音(《Deep speech 2: End-to-end speech recognition in english and mandarin》)和说话人识别(如xvector-PLDA(《Speaker recognition for multi-speaker conversations using x-vectors》))，语音识别的目的是确定语音信号的底层文本或命令。然而，基于DNN的方法的主要突破在于语音识别；对于说话人识别，基于向量的方法仍然表现出最先进的性能(《An improved uncertainty propagation method for robust i-vector based speaker recognition》)。此外，基于DNN的方法通常依赖于大量的训练数据，与基于向量和GMM的方法(《Deep speaker: an end-to-end neural speaker embedding system》)相比，会大大增加计算复杂度，因此不适合在客户端设备上离线注册。我们分别用ivector、GMM和xvector表示ivector-PLDA、GMM-UBM和xvector-PLDA。

II-B 威胁模型

我们假设攻击者打算从某个源说话人发出的声音中制作一个对抗样本，以便被攻击的SRS分类为已登记的说话人之一(非目标攻击)或目标说话人(目标攻击)，但仍被普通用户视为源说话人。

为了故意攻击目标受害者的身份验证，我们可以编写对抗音频，从SRSs的角度模仿受害者的声纹。合理地说，攻击者可以解锁智能手机(《Android app which enables unlock of mobile phone via voice print》)，登录应用程序(《Social software wechat adds voiceprint lock login function》)，进行非法金融交易(《TD Bank voiceprint》)。在没有目标的攻击下，我们可以操纵声音来模仿任何一个注册的说话人的声纹。例如，我们可以绕过基于语音的访问控制，如iFLYTEK(《VPR of iFLYTEK》)，其中登记了多个说话人。在绕过认证后，可以发起后续的隐藏语音命令攻击(如《Commandersong: A systematic approach for practical adversarial voice recognition》，《Hidden voice commands》)，例如对装有“Dragon Drive(《The voice-enabled car of the future》)”的智能汽车进行攻击。这些攻击场景实际上是可行的，例如，当受害者不在对抗音频的可听范围内，或者攻击声音由于存在其他声源(包括人或扬声器)而不能提高受害者的警惕性。

本文主要关注实用的黑盒设置，在该设置中，对手只能访问每个测试输入的目标SRS的识别结果(决策结果和分数)，而不能访问内部配置或训练/注册声音。这种黑盒设置在实际应用中是可行的，如Talentedsoft、科大讯飞、SinoVoice、SpeakIn等商用系统。如果分数不可访问(例如，商业系统Microsoft Azure中的OSI任务)，我们可以利用可迁移性攻击。我们假设对手有目标说话人的一些声音来构建代理模型，而这些声音不一定是注册的声音。这在实践中也是可行的，因为人们可以记录目标说话人的音频。据我们所知，有针对性的黑盒设置使所有以前的对抗攻击对SRSs不切实际。实际上，所有对SRSs的对抗攻击都是白盒(《Crafting adversarial examples for speech paralinguistics applications》，《Fooling end-to-end speaker verification with adversarial examples》)，除了并发工作(《Hear no evil , see kenansville : Efficient and transferable black-box attacks on speech recognition and voice identification systems》)，它只执行无目标的攻击。

具体来说，在我们的攻击模型中，我们考虑了五个参数：攻击类型(有针对性攻击vs.无针对性攻击)、说话者性别(性别间攻击vs.性别内攻击)、攻击通道(API vs. 空气传播)、说话者识别任务(OSI vs. CSI vs. SV)和目标SRS输出(决定和分数vs. 仅决定)如图2所示。性别内(性别间)是指来源和目标说话人的性别是相同的(不同的)。API攻击假设目标SRS(例如Talentedsoft)提供了一个API接口来进行查询，而空中传播意味着攻击应该在物理世界中通过空中播放。性别内(性别间)是指源说话人和目标说话人的性别是相同(不同)的。API攻击假设目标SRS(例如Talentedsoft)提供了一个API接口来进行查询，而空中传播意味着攻击应该在物理世界中通过空中播放。仅决定攻击是指目标SRS(如Microsoft Azure)只输出决策结果(即攻击者可以获得决策结果 $D (x)$ )，而不输出被登记说话人的分数。因此，有针对性的、跨性别的、空中传播的、只做决定的攻击是最实用的，也是最具挑战性的。综上所述，通过计算图2中所有参数的可能组合，有 $\times 2 \times 2 \times 3 \times 2$ 种攻击场景。由于SV任务中有针对性的攻击和无针对性的攻击是相同的，因此有 $\times 2 \times 2$ 。然而，展示所有40种攻击场景需要巨大的工程努力，我们设计了我们的实验来涵盖16种代表性的攻击场景。

III 方法

在本节中，我们将从动机开始，然后解释我们在黑盒设置中进行攻击的设计理念和可能的防御，最后呈现我们攻击的概述。

III-A 动机

本研究的动机是以下几个问题：(Q1)在实际的黑盒设置中，如何对SRSs的所有任务发起对抗攻击？(Q2)在跨架构、跨数据集和跨参数的情况下，以及在商业系统中，甚至在物理世界中通过空气播放时，制作可迁移到未知SRS的鲁棒对抗声音是否可行？(Q3)有可能制造出人类难以察觉、甚至不可能被普通用户注意到的对抗音频吗?(Q4)如果这样的攻击存在，它能被防御吗？

III-B 设计理念

为了解决Q1问题，我们研究了现有的针对图像/语音识别系统的黑盒攻击方法，即代理模型(《Practical black-box attacks against machine learning》)、梯度估计(《Zoo: Zeroth order optimization based black-box attacks to deep neural networks without training substitute models》，《Black-box adversarial attacks with limited queries and information》)和遗传算法(《Accessorize to a crime: Real and stealthy attacks on state-of-the-art face recognition》，《Genattack: practical black-box attacks with gradient-free optimization》)。代理模型方法被证明优于梯度估计方法(《Zoo: Zeroth order optimization based black-box attacks to deep neural networks without training substitute models》)，因此被排除。对于其他两种方法：众所周知，基于自然进化策略(NES)的梯度估计(《Black-box adversarial attacks with limited queries and information》)比有限差分梯度估计需要的查询要少得多(《Zoo: Zeroth order optimization based black-box attacks to deep neural networks without training substitute models》)，而粒子群优化(PSO)被证明比其他遗传算法具有更高的计算效率(《Accessorize to a crime: Real and stealthy attacks on state-of-the-art face recognition》，《Derivative-free optimization: a review of algorithms and comparison of software implementations》)。为此，我们在OSI系统上进行了比较实验，使用NES作为黑盒梯度估计技术，PSO作为遗传算法。结果表明，基于NES的梯度估计方法明显优于基于PSO的梯度估计方法。因此，我们采用了基于NES的梯度估计方法。

然而，即使有估计的梯度，现有的基于梯度的白盒方法(如《Explaining and harnessing adversarial examples》，《Adversarial examples in the physical world》，《Boosting adversarial attacks with momentum》，《Towards deep learning models resistant to adversarial attacks》，《Commandersong: A systematic approach for practical adversarial voice recognition》，《Imperceptible, robust, and targeted adversarial examples for automatic speech recognition》，《Robust audio adversarial example for a physical attack》，《Towards evaluating the robustness of neural networks》)都不能直接用于攻击SRSs。这是由于阈值 $θ$ 在OSI和SV任务中使用，而在图像/语音识别中没有使用。因此，当结果得分小于 $θ$ 时，这些方法不能对SRSs进行误导。为了解决这一问题，我们将阈值 $θ$ 纳入到我们的对抗样本生成中，并提出了一种新的算法在黑盒设置中估计 $θ$ 。

理论上，如果通过公开的API将上述方式制作的对抗性样本直接作为输入输入到目标SRS，则是有效的。然而，要像第二部分那样发起现实中的攻击，对抗样本应该在物理世界中通过空中播放，与SRS交互，而SRS可能与制作对抗样本的SRS不同。为了解决Q2，我们增加了对抗样本的强度和噪声幅度的范围，而不是使用噪声模型(《Commandersong: A systematic approach for practical adversarial voice recognition》，《Robust audio adversarial example for a physical attack》，《Imperceptible, robust, and targeted adversarial examples for automatic speech recognition》) ，因为它与设备和背景有关。我们已经证明了我们的方法在可迁移性攻击中是有效的，即使在物理世界中通过空气播放。

为了解决Q3，我们应该考虑人类的不可感知性的两个方面。首先，对抗样本在普通用户听起来应该很自然。其次，更重要的是，它们听起来应该是同一个人说的。作为解决Q3问题的第一步，我们使用 $L_{\infty}$ 范数对扰动添加一个约束，它限制音频信号每个采样点的最大失真。我们还进行了一个真实的人类研究，以说明我们的对抗样本的不可感知性。

为了解决Q4，我们应该用防御方法攻击SRS。然而，据我们所知，没有针对SRS的对抗攻击的防御解决方案。因此，我们使用四种针对语音识别系统的对抗攻击的防御方案：音频压缩(《Commandersong: A systematic approach for practical adversarial voice recognition》)、局部平滑、量化和时间依赖检测(《Characterizing audio adversarial examples using temporal dependency》)来防御我们的攻击。

III-C 我们的攻击概述:FAKEBOB

根据我们的设计理念，在本节中，我们将介绍我们的攻击的概述(如图3所示)，该攻击名为FAKEBOB，解决了I中提到的两个技术挑战(C1)和(C2)。为了解决C1，我们将对抗样本生成作为一个优化问题(IV-A)，针对SRSs (IV-B、IV-C和IV-D)的不同攻击类型(即有针对性和无针对性)和任务(即OSI、CSI和SV)定义了特定的损失函数。为了解决优化问题，我们提出了一种方法，利用一种新的算法估计阈值，NES梯度估计和BIM梯度估计。C2通过将噪声幅度和对抗样本强度的最大失真( $L_{\infty}$ 范数)纳入优化问题(IV-A, IV-B, IV-C和IV-D)来解决。

IV 我们的攻击:FAKEBOB

在本节中，我们将详细介绍FAKEBOB背后的技术，包括问题公式和对OSI、CSI和SV系统的攻击。

IV-A 问题形式化

给定一个原始的声音 $x$ ，由某个源说话人发出，攻击者旨在制定一个对抗音频 $\delta$ ，通过找到一个扰动 $δ$ ，使(1) $x^{'}$ 是一个有效声音(《Things you may not know about adversarial example: A black-box adversarial image attack》)；(2) $δ$ 是人类尽可能难以察觉的；(3)受到攻击的SRS将声音 $x$ 分类为注册的说话人或目标说话人之一。为了保证对抗声音 $x$ 是一个有效的声音，它依赖于音频文件格式(例如WAV，MP3和AAC)。我们的攻击FAKEBOB首先将语音 $x$ 在每个采样点 $i$ 的振幅值 $x (i)$ 归一化到范围 $[- 1, 1]$ ，然后构造扰动 $δ$ ，使 $\le x'(i) = x(i) + δ(i) \le 1$ ，最后将 $x^{'}$ 转换回音频文件格式，并将其提供给目标SRS。此后，我们设振幅值的范围为 $[- 1, 1]$ 。为了使人尽可能不被察觉，我们的攻击FAKEBOB采用 $L_{\infty}$ 规范来衡量原始声音和对抗声音之间的相似性，并确保 $L_{\infty}$ 距离 $||x',x||_\infty : =max_i\{|x'(i)-x(i)|\}$ 小于给定的扰动最大振幅阈值 $\epsilon$ ，其中， $i$ 表示音频波形的采样点。为了成功地欺骗目标SRS，我们将为语音 $x$ 找到一个对抗语音 $x^{'}$ 的问题形式化为以下约束最小化问题：
$\begin{aligned} & argmin_\delta \ f(x+\delta) \\ \tag{1} & \text{such that } ||x+\delta,x||_\infty < \epsilon \text{ and } x+\delta \in [-1,1]^n \\ \end{aligned}$ 其中 $f$ 为损失函数。当 $f$ 最小化时， $x + δ$ 被识别为目标说话人(有目标攻击)或登记说话人之一(无目标攻击)。我们的公式设计为使损失函数最小化而不是使扰动 $δ$ 最小化，就像在《Explaining and harnessing adversarial examples》，《Adversarial examples in the physical world》中所做的那样。一些研究，如《Towards evaluating the robustness of neural networks》，《Intriguing properties of neural networks》，提出了最小化损失函数和扰动的问题。要解决这一优化问题，还需要定义损失函数和算法。在本节的其余部分，我们主要在OSI系统上解决它们，然后将解决方案应用于CSI和SV系统。

IV-B 对OSI系统的攻击

如图4所示，要攻击OSI系统，我们想要从某个源说话人发出的声音 $x$ 开始创造一个对抗声音 $x^{'}$ ，(即 $=\text{reject})$ ，使声音 $x$ 被SRS分类为目标说话人 $\in G = \{1,...,n \}$ ，例如 $D (x^{'}) = t$ 。我们首先提出损失函数 $f$ ，然后展示如何解决最小化问题。

损失函数 $f$
要成功地对OSI系统发起有针对性的攻击，需要同时满足以下两个条件：目标说话人 $t$ 的得分 $S(x)]_t$ 应为(1)所有登记说话人中的最高分，且(2)不小于设定阈值 $θ$ 。因此，目标说话人 $t$ 的损失函数 $f$ 定义为：
$f(x)=max\lbrace (max\lbrace \theta,\underset {i \in G /\{ t \}} {max}[S(x)]_i \rbrace - [S(x)]_t), -k \rbrace \tag{2}$ 其中参数 $κ$ (由《Towards evaluating the robustness of neural networks》启发)旨在控制对抗声音的强度： $κ$ 越大，SRS就越自信地认为对抗声音是目标说话者 $t$ 。这在V-C中得到了验证。

我们的损失函数与《Towards evaluating the robustness of neural networks》中定义的类似，但我们还加入了一个额外的阈值 $θ$ 。考虑 $κ = 0$ ，当 $(max\{θ， max_{i \in G/\{t\}}[S(x)]_i\} -[S(x)]_t)$ 最小时，目标说话人 $t$ 的得分 $S(x)]_t$ 最大，直到它超过阈值 $θ$ 和其他所有加入的说话人的得分。因此，系统识别语音 $x$ 为说话人 $t$ 。当 $κ > 0$ ，而不是寻找一个仅仅改变 $x$ 对说话人 $t$ 的识别结果的声音，我们希望说话人 $t$ 的分数 $S(x)]_t$ 比任何其他登记说话人和阈值 $θ$ 都要大。

若要进行无目标攻击，则损失函数 $f$ 可修改为：
$f(x)=max\{ (\theta- \underset {i \in G} {max}[S(x)]_i), -k \} \tag{3}$ 直观地说，我们想找到一个扰动 $δ$ ，使 $x$ 的最大值至少是 $κ$ 大于阈值 $θ$ 。

求解优化问题
为了解决公式(1)中的优化问题，我们使用NES作为梯度估计技术，并使用带有估计梯度的BIM方法来制作对抗样本。具体来说，BIM方法首先设置 $x'_0 = x$ ，然后进行 $i^{th}$ 迭代。
$x'_i =clip_{x,\epsilon} \{ x'_{i-1} -\eta \cdot sign(\nabla_xf(x'_{i-1})) \}$ 其中 $η$ 是一个表示学习速率的超参数，和函数 $clip_{x,\epsilon}(x')$ ，灵感来自《Adversarial examples in the physical world》，执行每个样本对声音 $x$ 的裁剪。因此结果将在源声音 $x$ 的 $L_∞$ $\epsilon$ 附近，并且在转换回音频文件格式后将是一个有效的声音。形式上， $clip_{x,\epsilon}(x')=max\{min\{x',1,x+\epsilon\},-1,x-\epsilon\}$ 。

我们利用NES计算梯度 $\nabla_xf(x'_{i-1})$ ，它只依赖于识别结果。具体来说，在第 $i^{th}$ 次迭代时，我们首先创建 $m$ 个(必须是偶数)高斯噪声 $u_1, ..., u_m)$ 并把它们加到 $x'_{i−1}$ ，引导出 $m$ 个音频 $\acute{x}_{i-1}^1,...,\acute{x}_{i-1}^m$ 。其中 $\acute{x}_{i-1}^j=\acute{x}_{i-1}+\sigma \times u_j$ 且 $\sigma$ 为NES的搜索方差。注意， $u_j=-u_{m+1-j}$ 中 $j=1,...,\frac {m} {2}$ 。然后，我们通过查询目标系统( $m$ 次查询)来计算损失值 $f(\acute{x}_{i-1}^1),...,f(\acute{x}_{i-1}^m)$ 。接下来，计算梯度 $\nabla_xf(x'_{i-1})$ 的近似值：
$\frac {1} {m \times \sigma} \sum_{j=1}^m f(\acute{x}_{i-1}^j)\times u_j$ 实验中， $m = 50$ ， $σ = 1e^{-3}$ 。最后，我们计算符号 $sign(\nabla_xf(x'_{i-1}))$ ，定义域 ${1,0,1\}$ 上的向量，通过对梯度向量 $\frac {1} {m \times \sigma} \sum_{j=1}^m f(\acute{x}_{i-1}^j)\times u_j$ 应用元素符号数学运算。

然而，仅使用估计梯度的BIM方法不足以在黑盒环境中构建对抗样本，因为攻击者无法获得损失函数 $f$ 中使用的阈值 $θ$ 。为了解决这一问题，我们提出了一种新的 $θ$ 估计算法。

阈值 $θ$ 的估计
要估计阈值 $θ$ ，主要的技术挑战是，为了发动成功的攻击，估计的阈值 $\acute{θ}$ 应该不小于 $θ$ ，但也不应该超过 $θ$ 太多，否则，攻击成本可能会变得过高。因此，我们的目标是计算一个小的 $\acute{θ}$ ，使 $\acute{θ} \ge \theta$ 。为了实现这一目标，我们提出了一种新的方法，如算法1所示。给定一个具有评分 $S$ 和决策 $D$ 模块的OSI系统，以及一个任意声音 $x$ ，使 $=\text{reject}$ ，即 $x$ 是由冒名者发出的，算法1输出 $\acute{θ}$ ，使 $\acute{θ} \ge \theta$ 。
算法1
算法1首先通过查询系统(第1行)计算出语音 $x$ 的最大得分 $\acute{θ} = max_{i \in G}[S(x)]_i$ 。由于 $=\text{reject}$ ，我们可以知道 $\acute{θ} < \theta$ 。在第2行，我们初始化搜索步骤 $\Delta = |\frac {\acute{θ}} {10}|$ ，它将用于估计所需的阈值 $\acute{θ}$ 。 $|\frac {\acute{θ}} {10}|$ 是在 $\acute{θ}$ 的精度和算法效率之间进行权衡的结果。外部while循环(第4-11行)通过添加一个新的候选 $\acute{θ}$ (第5行)迭代计算出函数 $λx.max\{ (\theta- \underset {i \in G} {max}[S(x)]_i), -k \}$ (行6)。在式(3)中， $f^{'}$ 实际上是无目标攻击的损失函数，其中 $θ$ 被候选 $\acute{θ}$ 代替。函数 $f^{'}$ 将用于在内部while循环中制作样本(第7-11行)。对于每个候选 $\acute{θ}$ ，内部while循环(第7-11行)通过查询目标系统迭代计算样本 $\acute{x}$ ，直到目标系统识别出 $\acute{x}$ 是某个登记发言者(第9行)或 $\acute{x}$ 的最大分数不小于 $\acute{θ}$ (第11行)。如果 $\acute{x}$ 被认为是某个已注册的说话人(第9行)，那么算法1终止并返回 $\acute{x}$ 的最大分数(第10行)，因为 $max_{i \in G}[S(\acute{x})]_i \ge \theta$ 是期望的阈值。如果 $\acute{x}$ 的最大值不小于 $\acute{θ}$ (第11行)，我们重新启动外部while循环。

有人可能会注意到，当 $D (x)$ 总是等于 $\text{reject}$ 时，算法1不会终止。在我们的实验中，这种情况从未发生过。此外，它估计了一个非常接近实际阈值。需要注意的是，由开源SRS得到的实际阈值 $θ$ 仅用于评价算法1的性能。

IV-C 对CSI系统的攻击

CSI系统总是将输入声音分类为登记的说话人之一。因此，我们可以通过忽略阈值 $θ$ 来适应对OSI系统的攻击。具体地，定义目标说话人 $\in G$ 对CSI系统进行目标攻击的损失函数为：
$f(x)=max\lbrace ( {max}_{i \in G /\{ t \}}[S(x)]_i - [S(x)]_t), -k \rbrace$ 直观上，我们想找到一个小的扰动 $δ$ ，使说话人 $t$ 的分数是所有登记的说话人中最大的，并且 $S(x)]_t$ 至少比第二大的分数高 $κ$ 。

同样，定义对CSI系统进行非目标攻击的损失函数为：
$f(x)=max\lbrace ([S(x)]_m - {max}_{i \in G /\{ m \}}[S(x)]_i), -k \rbrace$ 其中 $m$ 表示原音频的真正说话人。直观上，我们想找到一个小的扰动 $δ$ ，使其他登记说话人的最大分数至少比说话者 $m$ 的分数大 $k$ 。

IV-D 对SV系统的攻击

SV系统只有一个注册说话人，并检查输入声音是否由注册说话人发出。因此，我们可以通过假设说话人组 $G$ 是一个单例集来适应对OSI系统的攻击。具体定义攻击SV系统的损失函数为：
$f(x)=max\{ \theta -S(x), -k\}$ 直观地说，我们想找到一个小的扰动 $δ$ ，使 $x$ 被认为是加入的说话人的得分至少是 $κ$ 大于阈值 $θ$ 。我们注意到对于SV系统的阈值估计算法应该修改，将算法1第6行中的损失函数 $f^{'}$ 替换为以下函数： $f'=\lambda x.max\{ \acute{θ}-S(x), -k \}$ 。

V 攻击评估

我们基于以下五个方面评估FAKEBOB的攻击能力：有效性/效率、可迁移性、实用性、不可感知性和鲁棒性。

V-A 数据集与实验设计

数据集
我们主要使用三个广泛使用的数据集：VoxCeleb1、VoxCeleb2和LibriSpeech(参见表1)。为了演示我们的攻击，我们以流行的开源平台Kaldi的i-vector和GMM系统为目标。使用Train-1 Set作为背景声音训练UBM模型。OSI和CSI由来自Test Speaker Set的5名说话人注册，形成一个说话人组。SV由5个来自测试说话人集的注册说话人，从而产生5个i-vector和5个GMM系统。

我们在使用Ubuntu 16.04和Intel Xeon CPU E5-2697 v2 2.70GHz、377G RAM(10核)的服务器上进行了实验。我们设置 $k = 0$ ，最大迭代 $= 1000$ ，最大/最小学习率 $η$ 为 $1 e - 3 / 1 e - 6$ ，搜索方差 $σ$ 为 $1 e - 3$ ，除非有明确说明，NES中每次抽取的样本 $m$ 为 $50$ 个。

评价指标
为了评估我们的攻击，我们使用表2所示的指标。信噪比(SNR)被广泛用于量化信号功率与噪声功率的比值，因此我们用信噪比来测量对抗声音(《Commandersong: A systematic approach for practical adversarial voice recognition》)的失真程度。我们使用方程 $SNR(dB)= 10 log_{10}(P_x/P_δ)$ 来得到SNR，其中 $P_x$ 为原始语音的信号功率 $x$ ， $P_δ$ 为扰动 $δ$ 的功率。信噪比值越大，扰动(相对)越小。为了评估效率，我们使用了两个指标：迭代次数和时间。(请注意，查询的数量是迭代次数乘以每次抽取的样本数量 $m$ ，在NES中， $m = 50$ 。)

实验设计
我们设计了五个实验。(1)我们评估了开源系统(即i-vector, GMM和x-vector)和商业系统Talentedsoft的有效性和效率。我们还在同性别和跨性别场景下评估FAKEBOB，因为跨性别攻击通常更困难。(2)我们通过攻击具有不同架构、训练数据集和参数的开源系统以及商业系统Microsoft Azure来评估可迁移性。(3)我们通过在现实世界中空中播放对抗声音来进一步评估其实用性。(4)对于人类的不可感知性，我们通过亚马逊土耳其机器人平台(MTurk)，一个人类智能的众包市场，进行了一个真实的人类研究。(5)最后评估了局部平滑、量化、音频压缩、基于时间依赖的检测等防御方法对FAKEBOB的防御效果。

回想一下，我们演示了40个典型攻击场景中的16个(参见II-B)。特别地，我们主要考虑的是有针对性的攻击，它比无针对性的攻击(《Audio adversarial examples: Targeted attacks on speech-to-text》)更强大，更具挑战性。我们的实验足以理解攻击模型的其他四个参数，即，性别间vs.性别内，API vs.无线，OSI vs.CSI vs. SV，决策和分数vs.仅决策。

OSI任务可以看作是CSI和SV任务的组合(参见II)。因此，由于空间的限制，我们有时只报告和分析OSI任务的结果，这比其他两种任务更具挑战性和代表性。

V-B 效果与效率

目标模型训练
为了评估其有效果和效率，我们训练i-vector和GMM系统用于OSI、CSI和SV任务。这些系统的性能如表3所示，在准确度方面如往常一样，假接受率(FAR)是由冒名者发出但被系统接受的声音的比例，错误拒绝率(FRR)是一个已注册的说话人发出的声音被系统拒绝的比例，开放集识别错误率(OSIER)是不能正确分类的声音的比例。注意，阈值 $θ$ 在i-vector实验中为 $1.45$ ，在GMM实验中为 $0.091$ ，因此FAR接近 $10\%$ 。虽然在SV和OSI任务中的参数 $θ$ 可以使用等错误率进行调整，即FAR等于FRR，但我们发现SV和OSI任务的结果变化不大。

设置
$\epsilon$ 参数是我们攻击中最关键的参数之一。为了对 $\epsilon$ 进行微调，我们研究了ASR、效率和失真，方法是在CSI任务的i-vector和GMM上，将 $\epsilon$ 从 $0.05$ 、 $0.01$ 、 $0.005$ 、 $0.004$ 、 $0.003$ 、 $0.002$ 到 $0.001$ 变化。结果见附录C。随着 $\epsilon$ 的减小，攻击代价增大，信噪比增大，ASR减小。为了权衡ASR、效率和失真，我们在实验中设置了 $\epsilon=0.002$ 。

目标说话人是来自测试说话人集的说话人(参见表I)，源说话人是来自CSI的测试说话人集的说话人，来自SV和OSI的冒名说话人集的说话人(参见表I)。理想情况下，我们将使用FAKEBOB为每个任务制作100个对抗样本，对于CSI, 40个对抗样本为性别内样本，60个性别间样本，对于SV和OSI， 50个性别内样本和50个性别间样本。请注意，为了使实验多样化，CSI和SV/OSI的源说话人被指定为不同的。

结果
结果见表V。由于OSI任务比其他两个任务更具挑战性和代表性，我们在这里只分析OSI任务的结果。我们可以观察到FAKEBOB对于i-vector和GMM都达到了 $99.0\%$ 的ASR。从信噪比来看，i-vector的平均信噪比为 $31.5$ (dB)， GMM的平均信噪比为 $31.4$ (dB)，表明扰动小于 $0.071\%$ 和 $0.072\%$ 。此外，i-vector上的平均迭代次数和执行时间分别为 $86$ 和 $38.0$ 分钟。GMM上的平均迭代次数和执行时间分别为 $38$ 和 $3.8$ 分钟，比i-vector小得多。由于篇幅的限制，我们在附录D中给出了攻击x-vector的结果，我们在附录D中看到了类似的结果。这些结果证明了FAKEBOB的有效性和高效性。

我们还可以观察到，由于男性和女性的声音不同，性别间的攻击比性别内的攻击更困难(更多的迭代和执行时间)。此外，性别间攻击的ASR也低于性别内攻击。研究结果表明，一旦攻击者知道了目标说话者的性别，就更容易发起性别内攻击。

为了评价阈值估计算法，我们通过设置5个不同的阈值，在表IV中报告了估计的阈值 $θ$ 。i-vector估计误差小于 $0.03$ ，GMM估计误差小于 $0.003$ 。这表明我们的算法能够在 $13.4$ 分钟内有效地估计出阈值。注意，我们的攻击是黑盒攻击，只有在评估时才访问实际的阈值。

攻击商业系统Talentsoft
我们还评估了FAKEBOB在由公安部声纹识别行业标准制定者开发的Talentedsoft上的有效性和效率。我们通过HTTP post(被视为公开的API)查询这个在线平台。由于Talentedsoft的目标是汉语普通话，为了公平地测试Talentedsoft，我们使用了汉语普通话语音数据库aishell-1。Talentedsoft的FAR和FRR都是 $0.15\%$ ，测试使用了20个说话人和7176个声音，这些声音是从aishell-1中随机选择的。

我们从aishell-1中随机选择5个说话人作为目标说话人，形成5个SV系统。每个人都被另外20个随机选择的说话人攻击，每个说话人随机选择一个声音。我们的攻击平均在50次迭代(即，2500个查询)内实现 $100\%$ 的ASR。注意FAKEBOB是一个基于迭代的方法。我们总是可以在迭代或查询之间设置一些时间间隔，这样这样的查询量不会对服务器造成沉重的流量负担，因此我们的攻击是可行的。这证明了FAKEBOB在完全是黑盒的商业系统上的有效性和效率。

V-C 可迁移性

可迁移性(《Intriguing properties of neural networks》)是指一些用于误导模型(称为源系统)的对抗样本可以误导其他模型(称为目标系统)，即使它们的架构、训练数据集或参数不同。

设置
为了评估可转移性，我们将之前构建的GMM (A)和i-vector(B)作为源系统，再构建8个目标系统(分别用 $C, . . ., J$ 表示)。 $C, . . ., I$ 是不同于关键参数和训练数据集的i-vector系统， $J$ 是x-vector系统。关于这些系统的详细情况和性能，请参阅附录中的表XIV和表XV。我们用 $\to Y$ 表示可迁移性攻击，其中 $X$ 是源系统， $Y$ 是目标系统。可迁移性攻击在架构、训练数据集和关键参数上的分布如图6所示。我们可以看到，一些攻击属于多个场景。我们设 $\epsilon=0.05$ ，对于CSI， (1) $κ = 0.2$ (GMM)， $κ = 10$ (i-vector)；对于SV， (2) $κ = 3$ (GMM)， $κ = 4$ (i-vector)；对于OSI， (3) $κ = 3$ (GMM)， $κ = 5$ (i-vector)。注意， $κ$ 不同于结构和任务，因为它的评分机制不同。我们在最大迭代边界 $1000$ 下微调ASR的参数 $κ$ 。

结果
攻击OSI系统的结果如表VI所示。除 $\to A$ 外，所有攻击均达到 $34\% \sim 68\%$ 的ASR和 $40\% \sim 100\%$ 的UTR。对于 $\to D$ 、 $\to E$ 、 $\to F$ 、 $\to G$ 、 $\to H$ (都是i-vector，但有一个关键参数不同)，FAKEBOB实现了 $100\%$ 的ASR和UTR，说明跨架构降低了可迁移率。从 $\to B$ 和 $\to C$ (其中 $A$ 是GMM， $B$ 和 $C$ 是i-vector，但训练数据不同)，跨数据集也降低了可迁移率。 $\to A$ 的可迁移率最低，小于 $\to B$ ，说明从体系结构i-vector( $B$ )迁移到GMM ( $A$ )更加困难。与 $\to C$ (跨数据集和架构)相比， $\to C$ (跨数据集)实现了近 $20\%$ 的ASR和UTR。这说明源系统和目标系统的差异越大，可迁移性攻击越困难。由于篇幅限制，攻击CSI和SV系统的结果见附录表XVI和XVIII。我们可以观察到类似的结果。平均信噪比与表VII所示相似。

表16
表18
为了了解 $κ$ 的值如何影响迁移率，我们通过固定 $\epsilon = 0.05$ ，并在步骤 $0.5$ 时将 $κ$ 从 $0.5$ 改变到 $5.0$ 来进行 $\to F$ 攻击(OSI任务)。在这个实验中，迭代次数是无限的。结果如图5所示。随着 $κ$ 的增加，ASR和UTR都迅速增加，当 $κ = 4.5$ 时达到 $100\%$ 。这表明增加 $κ$ 的值会增加迁移性攻击成功的概率。

攻击商业系统Microsoft Azure
Microsoft Azure是全球第二大市场份额的云服务平台。它通过HTTP REST API同时支持SV和OSI任务。与Talentedsoft不同，Azure的API只返回决策(即预测的说话者)和3个置信水平(即低、正常和高)，而不是分数，所以我们通过可迁移性攻击这个平台。我们从测试说话人集中招募了5名说话人，在Azure上构建一个OSI系统(简单起见称为OSI-Azure)。它的FAR由冒名说话人集测试为 $0\%$ 。对于每个目标说话人，我们从LibriSpeech中随机选择10个源说话人和每个源说话人的2段语音，这些都被OSI-Azure拒绝。我们在GMM系统上设置 $\epsilon = 0.05$ 并制作100个对抗语音，因为在上述实验中，它产生了很高的可迁移性。ASR为 $26.0\%$ ，UTR为 $41.0\%$ ，SNR为 $6.8 d B$ 。当 $\epsilon$ 从 $0.05$ 增加到 $0.1$ 时，它们分别变为 $34.0\%$ 、 $57.0\%$ 和 $2.2 d B$ 。

我们还在Azure (SV-Azure)的SV任务上演示了FAKEBOB，它依赖于文本，支持10个文本。我们招募了两名说话人，让他们把每一篇文本读10遍，结果产生了200段语音。对于每一对说话人和文本，我们在GMM和SV-Azure中随机选取3个登记语音，其FARs为 $0\%$ 。我们使用GMM制作的200个对抗样本攻击SV-Azure( $\epsilon = 0.05, κ=3$ )。然而，SV-Azure会报告错误、噪音太大，而不是接受或拒绝190个对抗声音。在其他10种声音中，只有1种声音被接受，从而导致 $10\%$ 的ASR。据我们所知，这是SV-Azure第一次被成功攻击。由于Azure是私有的，没有任何公开的信息，所以很难知道SV-Azure输出错误的原因。将这190个声音的信噪比与其他10个声音的信噪比( $8.8 d B$ vs. $11.5 d B$ )进行比较后，我们怀疑如果输入的噪声太大，它会检查每个输入和输出错误，如果没有模型分类，则会检查噪声太大。这种检查使SV-Azure更难以攻击，但我们推断，在实际背景噪声较大的情况下，它也可能会拒绝正常的声音。

V-D 空中攻击的实用性

为了模拟现实世界中的空中攻击，我们首先通过直接与系统的API交互来制作对抗样本，然后通过扬声器和麦克风播放和录制这些对抗声音，最后通过API将录制的声音发送到系统，检查其有效性。我们的实验在室内进行(长、宽、高分别为 $10$ ， $4$ ， $3.5$ 米)。
为了全面评估FAKEBOB，空中攻击在系统、设备(扬声器和麦克风)、扬声器和麦克风之间的距离以及声学环境方面各不相同。它总共涵盖了26个场景。不同设置的概述见附录中的表19。我们只考虑了i-vector和GMM的所有任务，以及OSI-Azure。我们使用与第V-C部分相同的参数，因为空中攻击更实用，也更具有挑战性，因为来自空气通道和电子设备的噪声可能会干扰对抗样本的扰动。对于OSI-Azure，我们使用在GMM上制作的V-C部分中成功迁移到OSI-Azure的对抗声音。
表19
不同系统的结果
扬声器为便携式扬声器(JBL clip3)，麦克风为iPhone 6 Plus (iOS)，两者之间距离为1米。我们在一个相对安静的环境中攻击i-vector和GMM以及OSI-Azure的所有任务。结果见表7。我们可以观察到GMM SV的FRR(OSI)是 $62\%$ ，揭示了GMM对正常声音的鲁棒性不如i-vector。FAKEBOB完成(1)CSI任务，在GMM上达到 $90\%$ 的ASR(即系统将对抗语音分类为目标说话人)和 $100\%$ 的UTR(即系统不将对抗语言分类为源说话人)，在i-vector上达到 $80\%$ 的ASR和 $80\%$ 的UTR；(2)SV任务，至少 $76\%$ 的ASR；(3)OSI任务，GMM和i-vector上的ASR均为 $100\%$ ；(4)在商用系统OSI-Azure上实现 $70\%$ 的ASR。

在信噪比方面，平均信噪比不低于 $6.1 d B$ ，对于SV任务，i-vector的平均信噪比达到 $9.8 d B$ ，信号功率是噪声功率的 $9.5$ 倍。此外，CommanderSong的信噪比远高于空中攻击。

不同设备的结果
对于扬声器，我们使用3种常见设备：笔记本电脑(DELL)、便携式扬声器(JBL clip3)和广播设备。(Shinco)。对于麦克风，我们使用两款手机的内置麦克风：OPPO(Android)和iPhone 6 Plus(iOS)。在相对安静的环境下，我们将FAKEBOB与距离为1米的向量的OSI任务进行比较。结果见表8。

我们可以观察到，对于任何一对扬声器和麦克风，FAKEBOB都可以实现至少 $75\%$ 的ASR和UTR。当扬声器是JBL clip3或DELL，麦克风是iPhone 6 Plus时，FAKEBOB能够实现 $100\%$ 的ASR。在扬声器固定的情况下，IPhone 6 Plus攻击的ASR和UTR比OPPO攻击高出至少 $14\%$ 和 $16\%$ 。可能是因为iPhone 6 Plus的音质比OPPO手机好。这些结果证明了FAKEBOB在各种设备上的有效性。

不同距离的结果
为了了解扬声器和麦克风之间的距离的影响，我们将距离从 $0.25$ 、 $0.5$ 、 $1$ 、 $2$ 、 $4$ 到 $8$ 米不等。我们使用JBL clip3作为扬声器，iPhone 6 Plus作为麦克风，在一个相对安静的环境下攻击i-vector的OSI任务。

结果见表9。我们可以看到，FAKEBOB在距离不超过 $1$ 米的情况下，ASR和UTR都可以达到 $100\%$ 。当距离增加到 $2$ 米(4米)时。ASR和UTR下降到 $70\%$ ( $40\%$ 和 $50\%$ )。当距离为 $8$ 米时，ASR和UTR下降到 $10\%$ ，FRR也上升到 $32\%$ 。这显示了FAKEBOB在不同距离下的有效性。

不同声音环境的结果
我们使用JBL clip3和iphone6 Plus在 $1$ 米距离内攻击载体的OSI任务。为了模拟不同的声学环境，我们使用新科广播设备在背景中播放不同类型的噪音。具体来说，我们从谷歌AudioSet(《Audio set: An ontology and human-labeled dataset for audio events》)中选取了5种噪声类型：白噪声、公共汽车噪声、餐厅噪声、音乐噪声和绝对音乐噪声。白噪音在自然界中普遍存在，而公交车、餐厅、(绝对)音乐噪音则是FAKEBOB可能推出的几种日常生活场景的代表。对于白噪声，我们将其音量从 $45 d b$ 调整到 $75 d b$ ，而其他噪声的音量为 $60 d b$ 。对抗声音和正常声音的平均音量都是 $65 d b$ 。结果如表10所示。
表10
我们可以观察到，当背景噪声的音量不超过 $60 d B$ 时，无论何种类型的噪声，FAKEBOB的ASR和UTR都至少达到 $48\%$ 。虽然ASR和UTR都随着白噪声的增大而减小，但FRR也迅速增大。这证明了FAKEBOB在不同声学环境下的有效性。

V-E 通过人类研究证实人类的不可感知性

为了证明对抗样本的不可察觉性，我们在MTurk上进行了人体研究。该调查得到了我们研究所的机构审查委员会(IRB)的批准。
人类研究的设置
我们从MTurk招募参与者，让他们从两个任务中选择一个完成相应的问卷。我们不向参与者透露我们的研究目的，也不记录参与者的个人信息，如第一语言、年龄和地区。Amazon MTurk为允许和禁止使用MTurk设计了可接受使用政策，该政策禁止机器人或脚本或其他自动应答工具完成人类智能任务。因此，我们认为，参与者的数量可以合理地保证参与者的多样性。这两个任务描述如下。

任务1：干净或是嘈杂。
这个任务要求参与者判断播放的声音是干净的还是嘈杂的。具体来说，我们随机选择12个原始声音和15个从其他原始声音中制作的对抗声音，其中12个对抗声音是随机选择的，从 $\epsilon=0.002$ 和低可信度播放时变得非对抗(称为无效)的声音中，而另外3种声音则是从那些在 $\epsilon=0.1$ 级和高可信度播放时仍然保持对抗(即有效)的声音中随机挑选出来的。我们让用户选择一个声音是否有背景噪音(三个选项是干净、有噪音和不确定)。

任务2：识别说话人。
这项任务要求参与者分辨出两组声音是否出自同一人之口。具体来说，我们随机选择3个说话人(2男1女)，每个说话人随机选择1个正常的声音(称为参考声音)。然后为每个说话人，我们随机选择3个正常的声音，3个不同的对抗声音，这是由同一说话人的其他正常声音制作的，还有3个其他说话人的正常声音。总之,我们建造27对音频：9条是正常的双(来自同一个说话人的一个参考的声音和一个正常的声音)，9对其他双(来自另一个说话人一个参考的声音和一个正常的声音)和9对对抗的双(来自同一个说话人的一个参考的声音和一个对抗的声音)。在9个对抗数据对中，6对含有有效的对抗样本，有3对没有。我们要求参与者说出每组中的声音是否出自同一人(三个选项是相同的、不同的、不确定的)。

为了保证问卷的质量和结果的有效性，我们过滤掉了参与者随机选择的问卷。特别地，我们在每个任务中设置了三个简单的问题。在任务1中，我们插入三个沉默的声音作为注意力测试。在任务2中，我们插入了三对声音，每对声音中有一男一女，作为注意力测试。只有当所有答案都正确时，我们才认为它是有效的问卷，否则，我们排除它。

人类研究结果
我们最终收到了任务1的135份问卷，任务2的172份问卷，其中有27份和11份没有通过我们的注意力测试。因此，任务1有108份有效问卷，任务2有161份有效问卷。人类实验结果如图7所示。

在任务1中，如图7(a)所示， $10.7\%$ 的参与者听到了正常声音的噪音，而 $20.2\%$ 和 $84.8\%$ 的参与者分别听到了无效和有效的对抗音频(通过空中播放)的噪音。我们可以看到， $78.8\%$ 的参与者仍然认为无效的声音是干净的。对于有效的声音，我们发现 $84.8\%$ 与最近的白盒对抗性攻击(即 $83\%$ )相当，后者针对语音识别系统(《Imperceptible, robust, and targeted adversarial examples for automatic speech recognition》)定制了难以察觉的声音。(据我们所知，还没有其他针对SRSs的对抗攻击进行过类似的人类研究。)

在更有趣的任务2中(图7(b))， $86.5\%$ 的参与者认为彼此的声音是由不同的说话人发出的，这表明所收集的问卷质量。对于对抗声音组， $54.6\%$ 的参与者认为每对声音都是由同一人发出的，非常接近正常声音组的 $53.7\%$ 的基线，这表明人类无法区分正常声音和对抗声音的说话人。之前的工作(《Fooling end-to-end speaker verification with adversarial examples》)对对抗样本进行了ABX测试，这些样本是由白盒攻击对SV系统制作的。ABX测试首先向用户提供两个声音 $A$ 和 $B$ ，每个都是原始(重构)声音或对抗声音；然后提供从 ${A, B\}$ 中随机选择的第三个声音 $X$ ；最后让用户决定 $X$ 是 $A$ 还是 $B$ 。《Fooling end-to-end speaker verification with adversarial examples》的ABX测试显示， $54\%$ 的参与者正确分类了对抗声音，这与我们的非常接近。对于含有无效对抗声音的对抗数据对， $64.9\%$ 的参与者认为这两种声音来自同一说话人，远高于基线的 $53.7\%$ ，因此更难以察觉。对于含有有效对抗声音的对抗数据对， $54\%$ 的参与者能够明确区分说话者，不太大于正常配对的 $42.2\%$ 。

结果揭示，由FAKEBOB制作的对抗声音可以使系统不正常运行(即做出决定，对抗声音是由目标说话者发出)，而大多数无效的对抗样本被分类干净，不能被普通用户区分。有效的结果可与已有的相关工作相媲美。因此，我们的攻击是人类察觉不到的。

V-F FAKEBOB对防御方法的鲁棒性

如第III-B节所述，我们研究了四种防御方法：局部平滑、量化、音频压缩和时间相关性检测。我们评估GMM系统的OSI任务，除非使用100个随机声音明确说明。无防御系统的FRR为 $4.2\%$ ，FAR为 $11.2\%$ ，ASR为 $99\%$ ，UTR为 $99\%$ 。我们考虑两种设置：(S1)在没有防御的情况下在系统上制造对抗声音并使用防御攻击系统，以及(S2)使用防御直接攻击系统。S1来自CommanderSong。一种有效的防御方法应该能够减少干扰或检测到S1中的对抗声音。因此，我们将使用UTR度量。在S2中，一个有效的防御方法应该增加攻击的开销，降低攻击的成功率，因此我们使用ASR度量。我们设置了 $\epsilon = 0.002$ ，攻击能力很弱。增加 $\epsilon$ 将使FAKEBOB更强大。

我们发现局部平滑可以增加攻击代价，但对ASR无效，音频压缩对攻击代价和ASR都无效，而其他两种都不适合防御我们的攻击。

VI 讨论可能的军备竞赛

本节讨论对我们的攻击的潜在缓解和可能的高级攻击。

缓解FAKEBOB
我们已经证明了四种防御方法对FAKEBOB的影响有限，尽管其中一些在语音识别领域有希望。这表明需要更有效的防御方法来减轻FAKEBOB。我们讨论几种可能的防御方法如下。

针对SRSs上的欺骗攻击，人们提出了多种活性检测方法。这些方法通过利用人类语言产生系统(即肺、声带和声道)和电子扬声器产生的声音的不同物理特性来检测攻击。例如，Shiota等人(《Voice liveness detection algorithms based on pop noise caused by human breath for automatic speaker verification》)使用了由人类呼吸引起的气泡杂音，VoiceLive(《VoiceLive: A phoneme localization based liveness detection for voice authentication on smartphones》)利用了声音到达接收者的时间差，VoicesGesture(《Hearing your voice is not enough: An articulatory gesture based liveness detection for voice authentication》)利用了用户独特的发音手势。对抗声音也需要通过扬声器播放，因此活体检测可能用于检测它们。另一种检测方法是使用对抗声音和正常声音训练检测器。虽然在图像识别领域很有前景(《Adversarial and clean data are not twins》)，但误报率非常高，当攻击者意识到这种防御时，并没有提高鲁棒性(《Adversarial examples are not easily detected: Bypassing ten detection methods》)。另一种缓解对抗图像的方案是输入变换，如图像位深缩减和JPEG压缩(《Countering adversarial images using input transformations》)。我们可以利用输入转换(如位深降低和MP3压缩)来减轻对抗声音。然而，Athalye等人(《Obfuscated gradients give a false sense of security: Circumventing defenses to adversarial examples》)已经证明，图像上的输入变换很容易被反向传递可微逼近等强大攻击所绕过。我们推测位深降低和MP3压缩可能对高可信度的对抗声音无效。

最后，还可以通过使用依赖文本的系统，要求用户动态、随机地阅读生成的句子，来提高SRSs的安全性。这样做，攻击者必须同时攻击说话人识别和语音识别，从而产生攻击代价。如果要发出的短语集相对较小，我们也可以通过使用生成的短语对应的声音迭代查询目标系统来攻击系统。而当要说的词组非常多甚至无限时，我们的攻击就会失败。然而，这也给识别系统带来了挑战，因为训练数据可能无法覆盖所有可能的正常短语和声音。

在今后的工作中，我们将为对抗攻击研究上述方法(《Voice liveness detection algorithms based on pop noise caused by human breath for automatic speaker verification》，《VoiceLive: A phoneme localization based liveness detection for voice authentication on smartphones》，《Hearing your voice is not enough: An articulatory gesture based liveness detection for voice authentication》，《Countering adversarial images using input transformations》，《Obfuscated gradients give a false sense of security: Circumventing defenses to adversarial examples》，《Deepstellar: Model-based quantitative analysis of stateful deep learning systems》，《Towards characterizing adversarial defects of deep learning software from the lens of uncertainty》)。接下来我们讨论改进对抗攻击的可能方法。

可能的先进攻击
对于输出决策结果和分数的系统，FAKEBOB可以通过与之交互，直接制作对抗声音。然而，对于一个只输出决策结果的系统，我们必须利用可迁移性来攻击它。当源系统和目标系统之间的差距较大时，可迁移率是有限的。改进FAKEBOB的一种可能的解决方案是利用边界攻击，Brendel等人(《Decision-based adversarial attacks: Reliable attacks against black-box machine learning models》)提出了边界攻击来攻击仅决策的图像识别系统。

我们对人类的研究表明，我们的攻击是合理的人类无法察觉的。然而，许多有效的对抗声音仍然比原始声音更嘈杂(人类学习任务1)，而且一些有效的对抗声音可以被普通用户从不同的说话者中区分出来(人类学习任务2)，未来仍有提高不可感知性的空间。一种可能的解决方法是建立心理声学模型，将原始声音和对抗声音的频谱最大差异限制在人类感知的掩蔽阈值(听力阈值)(《Adversarial attacks against automatic speech recognition systems via psychoacoustic hiding》，《Imperceptible, robust, and targeted adversarial examples for automatic speech recognition》)。

VII 相关工作

文献对智能语音系统的安全问题进行了研究。在本节中，我们将讨论关于智能语音系统攻击的最相关的工作，并将它们与FAKEBOB进行比较。

对抗声音攻击
Gong等人(《Crafting adversarial examples for speech paralinguistics applications》)和Kreuk等人(《Fooling end-to-end speaker verification with adversarial examples》)分别提出了利用快速梯度符号法(FGSM)(《Explaining and harnessing adversarial examples》)在白盒环境下对SRSs进行对抗语音攻击。(《Crafting adversarial examples for speech paralinguistics applications》)的攻击针对的是基于DNN的性别识别、情感识别和CSI系统，而(《Fooling end-to-end speaker verification with adversarial examples》)的攻击针对的是基于DNN的SV系统。与他们相比：(1)我们的攻击FAKEBOB是黑盒，更实用。(2) FAKEBOB不仅处理SV和CSI，还处理更一般的OSI任务。(3)我们在流行的开源平台Kaldi上演示了我们对i-vector、GMM和DNN系统的攻击。(4) FAKEBOB在商业系统上是有效的，即使是在空中播放，这在(《Crafting adversarial examples for speech paralinguistics applications》，《Fooling end-to-end speaker verification with adversarial examples》)中没有考虑。

在一项并行工作中，Abdullah等人(《Hear no evil , see kenansville : Efficient and transferable black-box attacks on speech recognition and voice identification systems》)提出了一种针对说话人和语音识别系统的毒化攻击，并在OSI-Azure上进行了演示。这里有三个关键的区别：(1)他们的攻击从一个被注册的说话人 $A$ 发出的声音中制造出一个对抗声音，这样这个对抗声音既不会被拒绝，也不会被认出是说话人 $A$ 。因此，它们的攻击既不能选择一个特定的源说话人，也不能选择一个特定的目标说话人来被系统识别，因此，它们不能对SV任务进行有针对性的攻击或攻击。而我们的攻击超越了他们的攻击。(2)它们通过对输入语音进行分解和重构来制造对抗语音，因此获得的非目标成功率有限，无法用于发起更有趣、更强大的有目标攻击。(3)我们对现实世界中的空中攻击进行评估，但它们没有。

我们不能将我们的攻击的性能(即有效性和效率)与《Crafting adversarial examples for speech paralinguistics applications》，《Fooling end-to-end speaker verification with adversarial examples》，《Hear no evil , see kenansville : Efficient and transferable black-box attacks on speech recognition and voice identification systems》以上三个相关工作进行比较，因为它们都不可用。我们首次考虑了对抗攻击的阈值 $θ$ 。对语音识别系统的对抗攻击也进行了研究(《Targeted adversarial examples for black box audio systems》，《Audio adversarial examples: Targeted attacks on speech-to-text》，《Did you hear that? adversarial examples against automatic speech recognition》)。Carlini等人(《Audio adversarial examples: Targeted attacks on speech-to-text》)通过在白盒设置中制造敌对声音攻击DeepSpeech(《Deep speech: Scaling up end-to-end speech recognition》)，但在通过广播播放时未能进行攻击。在黑盒设置下，Rohan等人(《Targeted adversarial examples for black box audio systems》)将遗传算法与有限差分梯度估计相结合，为DeepSpeech构建了对抗语音，但由于语音长度的严格限制，成功率有限。Alzantot等人(《Did you hear that? adversarial examples against automatic speech recognition》)利用遗传算法提出了第一个基于CNN的语音命令分类模型的黑盒对抗攻击。但是由于说话人识别和语音识别的不同，这些工作与我们的工作是正交的，不能应用于基于i-vector和GMM的SRSs。

其他类型的语音攻击
其他类型的语音攻击包括隐藏语音攻击(针对语音和说话人识别)和欺骗攻击(针对说话人识别)。

隐藏语音攻击旨在将某些信息(例如，命令)嵌入音频载体(例如，音乐)，以便目标系统在不引起受害者注意的情况下识别所需的信息。Abdullah等人(《Practical hidden voice attacks against speech and speaker recognition systems》)提出了针对说话人和语音识别系统的这种攻击。有两个关键的区别：
(1)基于信号处理和心理声学的特点，他们的攻击干扰了由已登记的说话人发出的样本，这样它仍然被目标系统正确地归类为已登记的说话人，但对人类听力来说变得无法理解。虽然我们的攻击干扰了一个由任意说话人发出的样本，这样它就被错误地分类为目标说话人(有针对性攻击)或另一个已登记的说话人(无针对性攻击)，但这种干扰是人类听力无法察觉的。这意味着他们的攻击与我们的攻击方案不同。
(2)他们没有证明对SRSs进行空中攻击，他们的工具也不可用，因此不清楚它对SRSs的效果如何。DolphinAttack(《Dolphinattack: Inaudible voice commands》)、CommanderSong(《Commandersong: A systematic approach for practical adversarial voice recognition》)和Carlini等人(《Hidden voice commands》)提出了对SRSs的隐藏语音攻击。Carlini等人对基于GMM的语音识别系统发起了黑盒(即逆MFCC)和白盒(即梯度下降)攻击。DolphinAttack利用麦克风的弱点，利用超声波作为命令的载体来制造听不到的声音。然而，它可以很容易地通过从声音中过滤超声波来防御。CommanderSong利用梯度下降法将命令嵌入歌曲中，从而发起白盒攻击。

对SRSs的另一种攻击类型是欺骗攻击(《Spoofing and countermeasures for speaker verification: A survey》)，如模仿(《I-vectors meet imitators: on vulnerability of speaker verification systems against voice mimicry》)、重播(《A study on replay attack and anti-spoofing for text-dependent speaker verification》，《Quantifying the breakability of voice assistants》)、记录器攻击(《Wiretapping via mimicry: Short voice imitation mitm attacks on crypto phones》，《Quantifying the breakability of voice assistants》)、语音合成(《Evaluation of speaker verification security and detection of hmmbased synthetic speech》)、语音转换(《Voice conversion and spoofing attack on speaker verification systems》，《All your voices are belong to us: Stealing voices to fool humans and machines》，《Short voice imitation man-in-the-middle attacks on crypto phones: Defeating humans and machines》)等攻击。与对抗攻击(《Fooling end-to-end speaker verification with adversarial examples》，《Automated poisoning attacks and defenses in malware detection systems: An adversarial machine learning approach》)不同，欺骗攻击的目的是获取一种语音，使其被系统正确地归类为目标说话人，并听起来与普通用户所听到的目标说话人的声音相同。当任何熟悉受害者(包括受害者)的人都听不到攻击声音时，就可以发起欺骗攻击和对抗攻击。但是，如果熟悉受害者(包括受害者)的人能够听到攻击声音，他/她可能会检测到欺骗攻击。然而，如第II-B节所述，可以在这种情况下发动对抗攻击。

VIII 结论

在本文中，我们通过提出一种新的实用的对抗攻击FAKEBOB，首次全面系统地研究了在实际黑盒环境下对SRSs的对抗攻击。FAKEBOB在16种攻击场景下进行了全面评估。无论是开源系统还是商业系统，FAKEBOB都能达到 $99\%$ 的目标攻击成功率。我们还演示了FAKEBOB在Microsoft Azure上的可移植性。当在现实世界中播放时，FAKEBOB也是有效的。我们的发现揭示了FAKEBOB对SRSs的安全影响，呼吁使用更健壮的防御方法来更好地保护SRSs免受这种实际的对抗攻击。

Chen G, Chenb S, Fan L, et al. Who is real bob? adversarial attacks on speaker recognition systems[C]//2021 IEEE Symposium on Security and Privacy (SP). IEEE, 2021: 694-711.