【论文学习】《Defending Your Voice: Adversarial Attack on Voice Conversion》

最新推荐文章于 2023-12-31 16:56:11 发布

FallenDarkStar

最新推荐文章于 2023-12-31 16:56:11 发布

阅读量3.2k

点赞数 4

分类专栏：语音对抗文章标签：语音转换对抗攻击说话人验证 AutoVC 深度学习

本文链接：https://blog.csdn.net/weixin_42721167/article/details/121387653

版权

语音对抗专栏收录该内容

6 篇文章 5 订阅

订阅专栏

《Defending Your Voice: Adversarial Attack on Voice Conversion》论文学习

文章目录

《Defending Your Voice: Adversarial Attack on Voice Conversion》论文学习

摘要

近年来，语音转换在不改变话语语言内容的前提下，将某一条语音的说话人特征转换为另一条语音的说话人特征。尽管如此，改进的转换技术也引发了对隐私和认证的担忧。因此，非常希望能够阻止自己的声音被这种语音转换技术不当使用。这就是为什么我们在这篇论文报告第一个已知的对执行对抗性攻击语音转换的尝试。我们在需要被保护的说话人的语音中引入了人类难以察觉的噪声扰动。考虑到这些对抗样本，语音转换模式不能转换其他话语，使其听起来像是由被保护的说话者产生的。初步实验是在两个目前最先进的零资源语音转换模型上进行的。报告了白盒和黑盒两种情况下的客观和主观评价结果。结果表明，转换后语音的说话人特征明显不同于被保护的说话人特征，而受到保护的说话人的语音对抗样本与真实语音没有明显的区别。

关键词 ：语音转换，对抗攻击，说话人验证，说话人表征

1 介绍

语音转换的目的是在保留语言内容的同时，改变语音的某些特定声学特征，如说话人的身份。通过深度学习，这些技术变得更加强大(《Multi-target voice conversion without parallel data by adversarially learning disentangled audio representations》，《Cyclegan-vc2: Improved cyclegan-based non-parallel voice conversion》，《Stargan-vc: Non-parallel many-tomany voice conversion using star generative adversarial networks》，《One-Shot Voice Conversion by Separating Speaker and Content Representations with Instance Normalization》，《AutoVC: Zero-shot voice style transfer with only autoencoder loss》)，但改进的技术也导致了对隐私和认证的担忧。一个人的身份可能会被语音转换伪造，并以不正当的方式利用，这只是目前通过深度学习观察到的许多深度伪造问题之一，如合成的假照片或假声音。因此，检测任何此类伪造或防范此类活动变得越来越重要(《A comparison of features for synthetic speech detection》，《The deepfake detection challenge dataset》，《Exposing deepfake videos by detecting face warping artifacts》，《Fakecatcher: Detection of synthetic portrait videos using biological signals》)，这同样适用于语音转换。

另一方面，众所周知，神经网络在某些特定的噪声面前是脆弱的；如果输入信号受到这种人类察觉不到的细微扰动的干扰，神经网络就容易产生不同的或错误的结果(《Intriguing properties of neural networks》)。对抗性攻击是产生微小的扰动来欺骗神经网络。它在一些判别模型上取得了成功(《Explaining and harnessing adversarial examples》，《Adversarial machine learning at scale》，《Towards deep learning models resistant to adversarial attacks》)，但对生成模型(《Adversarial examples for generative models》)的报道较少。

在本文中，我们建议对语音转换进行对抗性攻击，以防止某一说话人的特征在语音转换中被不当利用。在要保护的说话人所发出的语音中加入了人所察觉不到的干扰。提出了端到端攻击、嵌入攻击和反馈攻击三种不同的攻击方法，使被转换语音的说话人特征与被防御语音的说话人特征有很大的不同。我们对两种最新的零资源语音转换模型进行了客观和主观评价。客观说话人验证结果表明，转换后的语音与被保护人产生的语音存在显著差异，并通过主观相似度测试进行验证。通过一个更接近实际应用场景的代理模型，验证了所提方法对黑箱攻击的有效性。

2 相关工作

2.1 语音转换

传统上，语音转换需要并行数据，或者两个说话人的训练话语必须成对并对齐。为了克服这一问题，Chou等人(《Multi-target voice conversion without parallel data by adversarially learning disentangled audio representations》)通过对抗性训练分别获得了语言内容和说话人信息的解纠缠表示；CycleGAN-VC(《Cyclegan-vc2: Improved cyclegan-based non-parallel voice conversion》)使用循环一致性来确保转换后的语音具有符合目标说话人特征的有意义语言；StarGAN-VC(《Stargan-vc: Non-parallel many-tomany voice conversion using star generative adversarial networks》)引入了多对多语音转换的条件输入。所有这些都仅限于在训练阶段出现过的说话人。

然后，零资源方法尝试将语音转换为任何一个说话人，且只给出一个例子，而不进行微调，目标说话者不一定是之前见过的。Chou等人(《One-Shot Voice Conversion by Separating Speaker and Content Representations with Instance Normalization》)为此目的采用了自适应实例归一化；AUTOVC(《AutoVC: Zero-shot voice style transfer with only autoencoder loss》)集成了预先训练的d-vector和编码器瓶颈，实现了最先进的结果。

2.2 声音的攻击与防御

自动语音识别(ASR)系统已被证明容易受到对抗性攻击。对波形、谱图或MFCC特征施加扰动，可以使ASR系统不能正确识别语音(《Audio adversarial examples: Targeted attacks on speech-to-text》，《Adversarial attacks against automatic speech recognition systems via psychoacoustic hiding》，《Did you hear that? adversarial examples against automatic speech recognition》，《Targeted adversarial examples for black box audio systems》，《Houdini: Fooling deep structured visual and speech recognition models with adversarial examples》)。在说话人识别上也实现了类似的目标，通过生成对抗性的例子来欺骗自动说话人验证(ASV)系统，使其预测这些例子是由某个特定的说话人说的(《Adversarial attacks on spoofing countermeasures of automatic speaker verification》，《Adversarial attacks on gmm i-vector based speaker verification systems》，《Fooling end-to-end speaker verification with adversarial examples》)。还提出了不同的欺骗ASV的方法来显示这些系统的脆弱性(《Vulnerability of speaker verification to voice mimicking》，《A study on spoofing attack in state-of-theart speaker verification: the telephone speech case》，《Spoofing and countermeasures for automatic speaker verification》)。但据我们所知，在语音转换中应用对抗性攻击尚未见报道。

另一方面，当ASV系统显示出易受欺骗攻击时，许多方法被提出来保护一个人的声音(《Deep features for automatic spoofing detection》，《Audio replay attack detection with deep learning frameworks》，《An end-to-end spoofing countermeasure for automatic speaker verification using evolving recurrent neural networks》，《You can hear but you cannot steal: Defending against voice impersonation attacks on smartphones》)。除了ASVspoof对欺骗技术和对策(《ASVspoof 2019: Future Horizons in Spoofed and Fake Audio Detection》)的挑战，Liu等人(《Adversarial attacks on spoofing countermeasures of automatic speaker verification》)[对这些对策进行对抗性攻击，显示出它们的脆弱性。显然，所有的神经网络模型都面临着对抗性攻击(《Explaining and harnessing adversarial examples》)的威胁，这导致了本文提出的攻击语音转换模型的想法。

3 方法论

一种广泛应用的语音转换模型采用了编解码器结构，该结构将编码器进一步分为内容编码器和说话人编码器，如图1所示。本文也是基于这个模型。内容编码器 $E_c$ 从输入语音 $t$ 中提取内容信息产生 $E_c(t)$ ，而说话人编码器 $E_s$ 则将输入语音 $x$ 的说话人特征嵌入到潜在向量 $E_s(x)$ 中，如图1的左侧所示。解码器 $D$ 以 $E_c(t)$ 和 $E_s(x)$ 为输入，生成包含基于 $E_c(t)$ 内容信息和基于 $E_s(x)$ 说话人特征的谱图 $F (t, x)$ 。

这里我们只关注输入到说话人编码器的语音，因为我们是在保护这些语音提供的说话人特征。在之前的工作(《Adversarial examples for generative models》)的激励下，这里我们提出了三种实施攻击的方法，目标是输出谱图 $F (t, x)$ (第3.1节)，或说话人嵌入 $E_s(x)$ (第3.2节)，或两者的组合(第3.3节)，如图1所示。

3.1 端到端攻击

对图1中的上述模型进行对抗性攻击的一种直接方法是将解码器输出 $F (t, x)$ 作为目标，也称为端到端攻击，如图1所示。将被保护的说话人所产生的原始声谱图表示为 $\in \mathbb{R}^{M \times T}$ ，将对 $x$ 的对抗性扰动表示为 $\delta \in \mathbb{R}^{M \times T}$ ，其中 $M$ 和 $T$ 分别为频率分量和时间帧的总数。非目标攻击的目的只是改变语音转换模型的输出，可以表示为:
$\begin{aligned} &\left. \underset {\delta} {maximize} \ \mathcal{L}(F(t,x+\delta),F(t,x)) \right. \\ &\left. subject \ to \ \ ||\delta||_{\infty} < \epsilon \right. \tag{1} \end{aligned}$ $\mathcal{L}(·,·)$ 为两个矢量之间或两个信号的谱图之间的距离， $\epsilon$ 是使扰动变得微妙的约束。信号 $t$ 可以任意提供输出语音的内容，我们在这里不关注这一点。

给定目标说话人产生的某一特定话语，我们可以对具有特定说话人特征的输出信号进行有针对性的攻击：
$\begin{aligned} &\left. \underset {\delta} {minimize} \ \mathcal{L}(F(t,x+\delta),F(t,y)) -\lambda\mathcal{L}(F(t,x+\delta),F(t,x)) \right. \\ &\left. subject \ to \ \ ||\delta||_{\infty} < \epsilon \right. \tag{2} \end{aligned}$ (2) 第一个表达式中的第一项目的是使模型输出听起来像是 $y$ 的说话人产生的，而第二项的目的是消除 $x$ 的原始说话人身份。 $\lambda$ 是一个平衡源和目标之间重要性的正超参数。

在求解 (2) 时，为了有效地约束 $[-\epsilon,\epsilon]$ 范围内的摄动，我们采用与前面一样的用 $t a n h (\cdot)$ 函数的变变量方法(《Towards evaluating the robustness of neural networks》)。这样，上面的 (2) 变成下面的 (3) ：
$\begin{aligned} &\left. \underset {w} {minimize} \ \mathcal{L}(F(t,x+\delta),F(t,y)) -\lambda\mathcal{L}(F(t,x+\delta),F(t,x)) \right. \\ &\left. subject \ to \ \ \delta < \epsilon \cdot tanh(w) \right. \tag{3} \end{aligned}$ 其中 $\in \mathbb{R}^{M \times T}$ 。这里不需要剪切函数。

3.2 嵌入攻击

图1中的说话人编码器 $E_s$ 将一个语音嵌入到一个潜在矢量中。同一说话人的这些潜在的话语载体往往聚集在一起，而不同说话人的话语载体往往是分开的。本文提出的第二种方法，通过直接改变话语的说话人嵌入，将重点放在说话人编码器上，也称为嵌入攻击，如图1所示。解码器 $D$ 根据如图1所示的说话人嵌入 $E_s(x)$ 产生具有说话人特征的输出 $F (t, x)$ ，改变说话人嵌入从而改变解码器的输出。

根据(3)中的符号和表达式，我们得到：
$\begin{aligned} &\left. \underset {w} {minimize} \ \mathcal{L}(E_s(x+\delta),E_s(y)) -\lambda\mathcal{L}(E_s(x+\delta),E_s(x)) \right. \\ &\left. subject \ to \ \ \delta < \epsilon \cdot tanh(w) \right. \tag{4} \end{aligned}$ 对抗性攻击现在只使用说话人编码器 $E_s$ 进行。由于只涉及说话人编码器，因此效率更高。

3.3 反馈攻击

本文提出的第三种方法试图结合上述两种方法，将解码器 $D$ 的输出谱图 $\delta)$ 反馈给说话人编码器 $E_s$ (图1中的红色反馈环)，并考虑通过这种方式得到的说话人嵌入。更具体地说，(4)中的 $E_s(x + \delta)$ 被(5)中的 $E_s(F(t, x + \delta))$ 所代替，这也被称为反馈攻击，如图 1 所示。
$\begin{aligned} &\left. \underset {w} {minimize} \ \mathcal{L}(E_s(F(t,x+\delta)),E_s(y)) -\lambda\mathcal{L}(E_s(F(t,x+\delta)),E_s(x)) \right. \\ &\left. subject \ to \ \ \delta < \epsilon \cdot tanh(w) \right. \tag{5} \end{aligned}$

4 实验设置

我们对Chou等人提出的(《One-Shot Voice Conversion by Separating Speaker and Content Representations with Instance Normalization》)(下文称为Chou模型)和AUTOVC模型进行了实验。它们都能够通过未经微调的几句话在未出现过的说话人上执行零资源的语音转换，被认为适合我们的场景。另一方面，像StarGAN-VC这样的模型仅限于训练中出现过的说话人发出的声音，这使得它不太可能模仿其他说话人的声音，因此我们在这里不考虑它们。

4.1 说话人编码

对于Chou模型，所有模块在CSTR VCTK语料库(《Cstr vctk corpus: English multi-speaker corpus for cstr voice cloning toolkit》)上从头开始联合训练。扬声器编码器提取了512维度的梅尔谱图，生成了128维度的说话人嵌入。AUTOVC利用预训练的d-vector(《Generalized end-to-end loss for speaker verification》)作为扬声器编码器，以80维度的mel谱图为输入，256维度的说话人嵌入为输出，在VoxCeleb1(《Voxceleb: A large-scale speaker identification dataset》)和LibrisSpeech(《Librispeech: an asr corpus based on public domain audio books》)上进行预训练，但可推广到未出现过的说话人。

4.2 声码器

在推论中，Chou的模型利用Griffin-Lim算法(《Signal estimation from modified short-time fourier transform》)合成音频。AUTOVC之前采用WaveNet(《Wavenet: A generative model for raw audio》)作为频谱图逆变器，但由于时间限制，我们在VCTK语料库上使用基于WaveRNN的声码器(《Towards Achieving Robust Universal Neural Vocoding》)来生成质量相近的波形。

当我们在声谱图上引入扰动时，声码器将声谱图转换为波形是必要的。分别对采用Griffin-lim算法和基于WaveRNN声码器的Chou模型和AUTOVC进行攻击。

4.3 攻击场景

这里测试了两种场景。在第一个场景中，攻击者对要攻击的模型有完全的访问权。有了完整的体系结构和模型的所有训练参数，我们可以直接应用对抗攻击。这个场景被称为白盒场景，所有的实验都是在Chou的模型和AUTOVC的公开网络参数上进行的，并在完全相同的模型上进行评估。

第二种被称为黑箱方案，在这种方案中，攻击者不能直接访问要攻击的模型的参数，或者体系结构可能是未知的。为了攻击Chou的模型，我们训练了一个具有相同架构但初始化不同的新模型，而对于AUTOVC，我们训练了一个新的说话人编码器，其架构与原始AUTOVC中的类似。然后，这些新训练的模型被用作代理模型，生成对抗样本，并以与白盒场景相同的方式，用公开可用的样本进行评估。

4.4 攻击过程

所有实验均选择 $\mathcal{L}_2-norm$ 为 $L (\cdot, \cdot)$ ，且 $\lambda = 0.1$ 。(3)、(4)、(5)中的w由标准正态分布初始化。加到话语中的扰动是 $\epsilon \ tanh(w)$ 。采用Adam(《Adam: A method for stochastic optimization》)优化器根据(3)、(4)、(5)中定义的损失函数迭代更新 w，学习率为 0.001，迭代次数为 1500次。

5 实验结果

5.1 客观测试

在自动评价方面，我们采用说话人验证精度作为可靠的指标。本文使用的说话人验证系统首先将两个输入话语编码到嵌入中，然后计算两者之间的相似度。如果这两句话的相似度超过阈值，就会被认为是同一个人说的。在测试中，每次我们将机器生成的语音与真实的语音进行比较时，我们提供了实验中的说话人特征(图1中的 $x$ )，下面使用的说话人验证准确性定义为说话人验证系统认为这两种情况是由同一说话人产生的百分比。

这里使用的验证系统是基于预先训练的 d-vector 模型，这与两种被攻击模型的说话人编码器不同。在验证从VCTK语料中随机抽取的话语对时，根据等错误率(EER)确定阈值。在数据集中，我们为每个说话人采样了256个话语，其中一半作为积极的样本，另一半作为消极的样本。对于积极的样本，相似度与真实说话人的随机语音计算，而消极的样本则与随机选择的其他说话人的随机语音计算。这使得阈值为0.683，EER值为0.056。

我们随机收集足够的提供说话人的话语数量特征(图1中的 $x$ )从109个说话人VCTK语料库和提供内容的足够数量的语音(图1中的 $t$ )，并用Chou的模型和AUTOVC进行语音转换，生成原始输出(图1中的 $F (t, x)$ )。我们随机收集了100对Chou的模型和AUTOVC制作的这样的组合 $(x, F (t, x))$ ，上面提到的说话人验证系统认为这些组合是由同一位说话人制作的，将用于下面的测试（我们只评估了可以通过语音转换模型成功转换的示例，因为如果一个示例不能成功转换，那么就没有必要对它进行保护）。因此，所有这些原始输出 $(F (t, x))$ 的说话人验证精度为1.00。然后我们创建了相应的对抗样本(在(3)，(4)和(5)中的 $x + δ$ )，针对与被保护的说话人性别相反的说话人，并分别对这些对抗样本语音(称为对抗输入)和转换语音 $F (t, x + δ)$ (称为对抗输出)进行了说话人验证。在Chou的模型和AUTOVC的测试中使用了相同的例子。

图 2(a) 显示了Chou模型的白盒场景下，相对于被保护的说话人，对对抗输入和输出语音的说话人验证准确性。第3节提到的三种方法的结果在 (i) (ii) (iii) 三个部分中，蓝色交叉虚线条和红色对角线条分别表示对角线输入和对角线输出。类似地，图 2(b) 为AUTOVC。我们可以看到对抗的输入听起来非常接近保护的说话人，或者扰动 $δ$ 几乎难以察觉(蓝色条非常接近于1.00)，而转换的语音听起来像是来自不同的说话人(红色条要低得多)。这三种方法都是有效的，尽管反馈攻击对Chou的模型的效果最好(图2(a)中的(iii)部分)，而嵌入攻击对Chou的模型和AUTOVC在对抗性输入和输出方面都很好(每个图表的(ii)部分)。

对于黑箱场景，我们仅对Chou的模型分析了与图2(a)相同的说话人验证精度，但有不同尺度的扰动 $\epsilon$ ，三种方法的结果分别显示在图3(a,b,c) 中。我们看到当 $\epsilon = 0.075$ 时，对抗输入几乎保持完整(蓝色曲线接近1.0)，而对抗输出受到严重干扰(红色曲线低得多)。然而，当 $\epsilon≥0.1$ 时，对抗输入的说话人特征发生了巨大的改变(蓝色曲线下降)，尽管对抗输出听起来非常不同(红色曲线非常低)。

图4显示了与图3相同的结果，只是在AUTOVC上只进行了嵌入攻击(因为另外两种方法在图 2(b) 的白盒场景下效果并不好)。我们看到了非常相似的结果，如图3所示，嵌入攻击在AUTOVC中成功地实现了 $\epsilon(0.05 \le \epsilon \le 0.075)$ 的良好选择。

在所提出的三种方法中，考虑防御效率(如上所述)和时间效率，嵌入攻击被证明是最具吸引力的。反馈攻击对Chou的模型有很好的效果，但对AUTOVC的效果较差。由于需要一个更完整的编码器到解码器的推理，所以也需要更多的时间来应用扰动。有趣的是，端到端攻击的性能与其他两种方法相当，尽管它是基于谱图之间的距离，与其他两种方法所依赖的说话人嵌入之间的距离有很大不同。

5.2 主观测试

上述说话人验证测试是客观的，但不一定是充分的。因此，我们在这里进行了主观评价，但只对Chou的模型和AUTOVC的白盒和黑盒场景进行了最吸引人的嵌入攻击。我们从上面描述的用于客观评价的100个例子中随机选择了50个。对应的对抗输入 $(x + δ)$ 、输出 $(F (t, x + δ))$ 和原始输出 $(F (t, x))$ ，然后在Chou的模型和AUTOVC的 $\epsilon=0.075$ 和 $0.05$ 的主观评价中重复使用。然后，研究人员要求受试者从四个选项中选择一个来判断两个给出的语音是否来自同一个说话人：(1)不同，但绝对确定；(2)不同，但不太确定；(3)相同，但不太确定；(4)相同，但绝对确定。在给出的两个语音中，一个是原始语音 $x$ ，另一个是对抗输入、对抗输出或原始输出。6名受试者对每组话语进行评价。为了消除主观结果可能的异常值，我们在每个话语对收到的6张选票中删除了两张极端选票(如果有(I)的话删除一个，如果没有(I)则删除一个(II)，等等；(IV)和(III)做相似处理)。通过这种方法，每对话语收集4张选票，50对话语收集200张选票。在这200张选票中，选择(I)、(II)、(III)、(IV)的百分比分别显示在图5中白盒为1、2，黑盒为3、4，Chou的模型和AUTOVC的原始输出为5。

对于Chou的模型，我们可以在图5(a)中看到至少 70% - 78% 的选票选择了(IV)或认为对抗输入很好地保留了原始说话人的特征(第1、3条中的红色部分)，但至少有 41% - 58% 的选票选择了(I)，或认为明显来自不同说话人的对抗输出(第2 - 4条蓝色部分)。对于原始输出，至少有 82% 的选票认为他们接近原始说话人(第5栏中的(III) + (IV))。如图5(b)所示，对于AUTOVC，至少 85% - 90% 的选票选择了(IV)(红色部分在第1条和第3条中)，而超过 54% - 68% 的选票选择了(I)(蓝色部分在第2条和第4条中)。然而，只有大约 27% 的选票认为原来的输出来自同一个发言者(第5栏中的红色和橙色部分)。这可能是因为这里使用的客观说话人验证系统并不能很好地匹配人类的感知，在此基础上，选择的与阈值以上的原始语音相似的原始输出对受试者来说可能不是同一个说话人发出的。同样，对于这两个模型，黑盒场景通常比白盒场景更具挑战性(绿色和蓝色较低的部分，4 vs 2)，但该方法在很大程度上仍然有效。

6 结论

改进的语音转换技术对保护说话人特性的新技术提出了更高的要求。本文提出了已知的首次尝试对语音转换进行对抗攻击，提出了三种不同的方法，并在两种最先进的语音转换模型上进行了客观和主观评价，结果非常令人鼓舞，包括更接近真实应用的黑箱场景。

Huang C, Lin Y Y, Lee H, et al. Defending your voice: Adversarial attack on voice conversion[C]//2021 IEEE Spoken Language Technology Workshop (SLT). IEEE, 2021: 552-559.

FallenDarkStar

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【论文学习】《Defending Your Voice: Adversarial Attack on Voice Conversion》

《Defending Your Voice: Adversarial Attack on Voice Conversion》论文学习文章目录《Defending Your Voice: Adversarial Attack on Voice Conversion》论文学习  摘要  1 介绍  2 相关工作    2.1 语音转换    2.2 声音的攻击与防御  3 方法论    3.1 端到端攻击&nb
复制链接

扫一扫

专栏目录