0-Abstract
本文构建了有关语音识别的定向语音对抗样本,给定任意音频波形,可以产生99.9%相似的另一个音频波形,且可以转录为所选择的任何短语。作者将基于白盒迭代优化攻击应用于DeepSpeech模型(端到端语音识别),实验显示,它具有100%的成功率。
1-Introduction
1.1Existing work
当前对对抗样本的研究大多基于图像空间,包括图像分类、图像生成模型、图像分割、面部检测等,而在音频空间研究较少,其中最常见的是自动语音识别。其中最先进的定向语音识别攻击是一种名为Houdini的新型方法,它只能构建和语音对抗样本语音相似的短语
1.2Contributions
在本文中,作者通过攻击DeepSpeech模型证明了定向对抗样本攻击存在于音频空间。通过给定任意自然波形x,能够构造几乎听不见的扰动δ,但是x +δ被识别为任何期望的短语。由任意声波开始,通过把语音嵌入不被识别为语音的音频中,通过选择silence作为目标,可以实现隐藏音频到语音to文本系统中
2-Background
2.1Neural Network & Speech Recogniton
将音频视为N维向量x,每个元素xi是一个有符号的16位值,MFC将音频分为50帧每秒,并且将每帧映射到频域。
标准的神经网络分类模型采用一输入并在所有输出标签上产生一个概率密度输出,而语音to文本系统中,有指数级可能的标签,这是计算上不可行的。因此,语音识别系统通常使用递归神经网络,将音频声波映射到单个字符概率分布序列,而不是整个短语。
2.2Connectionist Temporal Classication
Connectionist Temporal Classication是在输入和输出序列之间的比对未知时训练序列到序列神经网络的方法。
X:输入域——单帧的输入
Y:范围(字母a-z,空格,ε)
f:神经网络 f:X^N-->[0,1]^(N·|Y|)以N帧x∈X的序列作为输入,并在每个帧的输出域上返回概率分布。
:xi∈X,其标签j属于Y的概率
p:代表一个短语,一系列的字符<pi>,其中pi属于Y
定义:
1)去除所有连续重复的字母
2)去除所有的ε
e.g. 序列 a a b ε ε b将被处理为 a b b
同时,我们可以得到
从而,
用于训练网络的损失函数是所需短语的负对数概率:
最后,为了将矢量y解码为短语p,我们搜索最适合y的短语p: