【论文学习】《A Overview of Spoof Speech Detection for Automatic Speaker Verification》

《A Overview of Spoof Speech Detection for Automatic Speaker Verification》论文学习

  摘要

       近年来,语音生物识别技术被广泛应用于各种说话人识别领域。自动说话人验证(ASV)系统的欺骗干扰和抗欺骗干扰是目前研究的热点。ASV系统最近的技术进步使得人们对确保这些语音生物识别系统在现实应用中的安全性越来越感兴趣。ASV系统容易受到各种欺骗攻击,即语音合成(SS)、语音转换(VC)、重放、孪生和模仿。本文提供了欺骗干扰检测、新型声学特征表示、深度学习、端到端系统等方面的文献。此外,本文还对欺骗攻击的研究进行了综述,重点介绍了SSVC和重放攻击,以及近年来针对欺骗语音检测(SSD)任务开发的对策。指出了SSD任务的局限性和面临的挑战。虽然在文献中提出了一些对策,但它们仅限于特定的数据库。为了解决这类问题,SSD任务需要一个健壮的对策。甚至有文献表明,尽管该对策对特定的数据库是有效的,但欺骗干扰检测问题还远远没有解决,因此语音生物识别系统仍然容易受到欺骗攻击。本文可以为有兴趣从事SSD任务的研究者提供一个良好的起点。
       
       关键词:自动说话人验证(ASV),欺骗攻击,数据库,性能评估指标,对策。
       

  1 介绍

       生物识别系统旨在从个体的行为和/或生物特征来验证其身份(《50 years of biometric research: Accomplishments, challenges, and opportunitie》,《Biometrics systems under spoofing attack: An evaluation methodology and lessons learned》)。可用于生物识别的身体特征分为解剖特征和行为特征(《Biometrics: A tool for information security》)。解剖特征包括面部(《Handbook of Face Recognition》)、指纹(《Handbook of Fingerprint Recognition》)、虹膜(《The importance of being random: Statistical principles of iris recognition》)、掌纹(《Palmhashing: A novel approach for cancelable biometrics》)、手形(《Biometric identification through hand geometry measurements》)、耳形(《Biometric recognition using 3D ear shape》);步态(《Multimodal biometric system using face, ear and gait biometrics》),特征(《Automatic on-line signature verification》),按键动态(《Authentication via keystroke dynamics》)是一些行为特征(《Biometric template security》)。声音生物识别可以被认为是一种解剖学特征或行为特征(《Biometrics: A tool for information security》)。尽管在这一研究问题上取得了重大进展,但一些生物识别系统无法保证数据的安全性和鲁棒性要求,无法在实际场景中进行部署。
       
       在过去的几十年里,人们对具有说话人识别功能的语音技术有很高的需求。特别是,说话人识别任务被用于验证和/或识别。说话人的识别是一个比验证更难的问题,因为识别系统必须执行大量的比较。自动说话人验证(ASV)系统的目标是确定或验证每个说话人的声音的身份。一般的ASV系统对于简单攻击来说是健壮的,但对于更复杂的攻击是脆弱的。在当前对ASV系统威胁的担忧中,欺骗是其中一个漏洞。
       
       欺骗是指说话人伪装成目标说话人以获得对安全数据的访问(《On the vulnerability of speaker verification to realistic voice spoofing》,《Spoofing and countermeasures for automatic speaker verification》)。ASV或生物识别领域的欺骗攻击一般被认为是国际标准化组织(ISO)和国际电工委员会(IEC)(《International organization for standardization》)规定的表示攻击的一部分。
       
       当生物识别技术被公开使用时(例如,用指纹识别出勤),黑客就能轻而易举地破解识别技术。欺骗也会发生在各种生物特征上,如指纹、虹膜、面部和声音(如图1所示)。在这个图1中,我们可以看到原始生物特征的燕鸥是如何被不同的技术欺骗的。本文主要研究ASV系统中基于语音的欺骗干扰和抗欺骗干扰技术。
图1
       欺骗语音样本可以通过合成包含目标说话人特征的语音来获得,包括将假名语音转换为目标说话人语音的语音转换方法,或者使用目标说话人录制的语音样本。根据欺骗样本注入ASV系统的方式,攻击大致可分为直接攻击和间接攻击两大类。在直接攻击(物理访问攻击)中,样本通过传感器作为输入应用到ASV系统中,即在麦克风和传输级。在间接攻击(逻辑访问攻击)中,样本涉及绕过传感器,即ASV系统软件流程、特征提取过程中的访问、干扰模型以及决策或评分计算,如图2(《Presentation attack detection using long-term spectral statistics for trustworthy speaker verification》)所示。
图2
       针对不同的数据集,提出了不同的语音欺骗检测方法。然而,早期使用的数据库不是标准的欺骗数据库,它们是从不同的语料库开发的,如YOHOWSJNIST SRE。因此,需要提供一个通用数据集和性能指标来评估欺骗干扰对策。在INTERSPEECH 2013(《Spoofing and countermeasures for automatic speaker verification》)举行的ASV欺骗和对策特别会议上也观察到了这一点。在这一特别会议的激励下,研究人员在INTERSPEECH 2015(《ASVspoof 2015: The first automatic speaker verification spoofing and countermeasures challenge》)举办了第一届ASVspoof 2015挑战赛。本次挑战中发布的数据库包含两种欺骗攻击,SSVC。此外,作为第一届ASV恶搞挑战赛的后续,INTERSPEECH2017年举办了第二届聚焦重播恶搞攻击的挑战赛。ASVspoof计划的历史发展和关键里程碑通过图3所示的时间线进行了说明。
图3
       在ICASSPINTERSPEECH和其他生物统计学会议上,专注于欺骗检测的研究论文激增。欺骗检测在期刊上也有专刊,如IEEE和最近宣布的计算机语音和语言(CSL)(《Special issue on speaker and language characterization and recognition: voice modeling, conversion, synthesis and ethical aspects》)专刊。近日,在APSIPA-ASC 2018(《Replay attack anti-spoofing measures for ASV systems》)举行了一场关于ASV系统重放攻击防欺骗措施的特别会议。主办方还计划举办第三届ASVspoof 2019挑战赛,将有物理和逻辑访问攻击(《ASVspoof 2019: Automatic speaker verification spoofing and countermeasures challenge》)。因此,现在正是对欺骗检测问题的最新进展、挑战和发展进行综述的时候。
       
       在《Biometrics systems under spoofing attack: An evaluation methodology and lessons learned》中对生物特征和欺骗攻击进行了全面的讨论,讨论了欺骗攻击的漏洞、评估方法和应对措施,并展望了未来的研究方向。《Spoofing and countermeasures for speaker verification: A survey》报道了关于ASVspoof挑战的第一份调查报告。本文对以往的工作进行了讨论,确定了未来的重点研究方向,并对欺骗攻击的研究进行了总结。《ASVspoof: The automatic speaker verification spoofing and countermeasures challenge》的研究提供了2015ASVspoof挑战的数据集、协议和指标的细节。它还包括对参与者系统的简要描述,他们各自的结果,包括那些从系统融合中得到的结果,并进行详细的分析。
       
       最近在《A survey on replay attack detection for automatic speaker verification (ASV) system》上发表了一篇调查论文,讨论了重放欺骗攻击、局限性和技术挑战,并提出了重放SSD任务的未来发展方向。这篇调查论文贡献和讨论了与其他欺骗攻击和重放攻击有关的内容。在本文中,我们描述了各种欺骗攻击,并讨论了在SSD任务研究中使用的不同类型的欺骗数据库。我们比较了针对合成语音和重放检测提出的不同对策。特别地,我们讨论了不同的经典学习和表示学习方法的SS和重放检测。本文还讨论了SSD任务的局限性和挑战,以及未来欺骗干扰研究的方向。
       
       本文其余部分的组织如下:对各种欺骗攻击的讨论在第二节中进行。第三节讨论了不同的欺骗数据库和性能评估指标。在第四节和第五节中,我们讨论了SSD任务合成和重放的不同对策。在本节中,我们介绍了在经典和表示学习方法中欺骗检测的对策。第六部分描述了欺骗干扰研究的局限性、技术挑战以及未来的研究方向,最后第七部分对本文进行了总结。
       

  2 ASV 系统:欺骗攻击

       在文献中,欺骗攻击大致分为五种类型,即语音合成(SS)、语音转换(VC)、重放、孪生和模仿。用于欺骗攻击的欺骗干扰算法很少,见图4。接下来讨论每种欺骗攻击的详细描述。
图4

    2.1 双胞胎

       很多时候,语音数据足以识别说话人,但如果是双胞胎,使用语音数据(《On the similarity of identical twin fingerprints》)很难区分。一般使用光谱分析来识别说话人的声音。在同卵双胞胎的情况下,同样的技术不能证明(《Spectrographic speech patterns of identical twins》)。在《Variable length Teager energy based mel cepstral features for identification of twins》上报道的这项研究表明,同卵双胞胎扬声器的语音信号模式、音高(F0)轮廓、共振峰轮廓和声谱图即使不是完全相同,也是非常相似的。由于缺乏唯一性,同卵双胞胎验证的FAR值增加。尽管科学和计算机已经提出了新的和强大的识别技术,仍然没有一种万无一失的方法来区分同卵双胞胎。随着世界范围内双胞胎比率的增加,需要新的方法来区分双胞胎。最近,汇丰银行的电话银行业务推出了“语音识别”服务,并宣传说:“可以在没有保安成本的情况下,为顾客提供更方便的服务(《HSBC reports high trust levels in biometric tech as twins spoof its voice ID system》)。”语音识别可以在几秒钟内分析你的声音,检查超过100个行为和身体的声音特征,包括你的嘴的大小和形状,你说话的速度,以及你如何强调单词(《BBC fools HSBC voice recognition security system》)”。最近,一对双胞胎兄弟模仿哥哥的声音,进入了哥哥的账户(《Twins fool HSBC voice biometrics - BBC》),因此语音识别软件的安全性受到了质疑。其他生物统计学文献(《On the similarity of identical twin fingerprints》)对相似双胞胎欺诈进行了研究。同卵双胞胎有一个相似的声谱模式,然而,这种技术的引入已经显著减少欺诈,并已被证明是比PINS,安全密码和难忘的短语。因此,语音识别技术目前银行安全、可靠的终极方法(《BBC fools HSBC voice recognition security system》)。该银行坚持认为,尽管语音遗传存在漏洞,但语音识别是一种非常安全的客户身份验证方法。
       

    2.2 模仿

       模仿被定义为产生目标说话人声音相似的语音模式和言语行为的过程(《Phonetic imitation, accent, and the learner》,《Vulnerability of speaker verification to voice mimicking》,《I-vectors meet imitators: On vulnerability of speaker verification systems against voice mimicry》)。模仿者不需要任何技术背景或机器来适当地模仿目标说话人。(《Testing voice mimicry with the YOHO speaker verification corpus》)发表的这项研究发现,如果冒名顶替者知道说话人的声音,并且拥有相似的声音模式,就可以破解生物识别系统。为了更好的模仿,专业模仿者尝试模仿目标说话人(《How vulnera- ble are prosodic features to professional imitators?》)的韵律特征。专业声音模仿者,旨在模仿声称说话人的韵律、口音、发音、词汇和其他高级说话人的特征。使用声谱线索或基于系统的方法对冒名顶替者没有用处(因为模仿者不会改变声道系统的形状和大小,以目标说话者的形状和大小)。
       

    2.3 语音合成

       语音合成(SS)也被称为文本到语音(TTS)系统,文本在输入端给出,系统在输出端产生语音信号。它是一种机器生成的声音生成系统,代表着真正的威胁。由于单元选择(《Unit selection in a concatena- tive speech synthesis system using a large speech database》)、统计参数(《Statistical parametric speech synthesis》)、混合(《A unified trajectory tiling approach to high quality speech rendering》)和基于DNNTTS方法的最新进展,SS现在能够生成高质量的语音。近年来,基于深度学习的技术,如生成对抗网络(Generative Adversarial Network, GAN)(《Statistical parametric speech synthesis incorporating generative adversarial networks》)、Tacotron(《Tacotron: Towards end-to-end speech synthesis》)、Wavenet(《Wavenet: A generative model for raw audio》)等,能够生成非常自然的语音,包括韵律内容。SS利用了自称说话人的声音特性和自然语音的频谱线索。自然语音信号(图1)和合成语音信号(图2)的光谱能量密度如图5所示(语音信号取自SAS语料库(《SAS: A speaker verification spoofing database containing diverse attacks》))。从图 5(b) 可以明显看出,与自然语音信号相比,SS信号的频谱能量包含更多的能量。更多用于SS语音信号开发的算法的技术描述见(《SAS: A speaker verification spoofing database containing diverse attacks》,《Evaluation of speaker verification security and detection of HMM-based synthetic speech》)。
       

    2.4 语音转换

       语音转换(Voice Conversion, VC)是将源说话人的声音转换为与目标说话人声音相似的声音的过程(《Vulnerability of speaker verification to voice mimicking》,《Artificial impos- tor voice transformation effects on false acceptance rates》,《Vulnerability of speaker verification systems against voice conversion spoofing attacks: The case of telephone speech》)。VC处理与分段和超分段特征相关的信息,保持语言内容类似(《Voice conversion versus speaker verification: An overview》)。早期的研究使用了统计技术,如高斯混合模型(GMM)(《Continuous probabilistic transform for voice conversion》)、隐马尔可夫模型(HMM)(《Hidden Markov model based voice conversion using dynamic characteristics of speaker》)、单元选择(《Text-independent voice conversion based on unit selection》)、主成分分析(PCA)(《Probabilistic principal com- ponent analysis applied to voice conversion》)和非负矩阵分解(NMF)(《Non- negative matrix factorization using stable alternating direction method of multipliers for source separation》)。最近的研究使用了深度学习技术,如人工神经网络(ANN) (《Voice conversion using artificial neural networks》), Wavenet (《Wavenet: A generative model for raw audio》), GAN(《Statistical parametric speech synthesis incorporating generative adversarial networks》)等。
       
图5
       在信号处理技术领域的研究也有报道,如矢量量化(《Voice con- version through vector quantization》)和频率扭曲(《Weighted frequency warping for voice conversion》)。语音转换语音信号的谱能量密度如图5所示。从图*5(b)*可以明显看出,VC信号的频谱能量具有清晰的谐波结构,并且在高频区域相对于自然信号有更多的能量。更多VC语音信号的技术描述见(《SAS: A speaker verification spoofing database containing diverse attacks》,《Voice conversion versus speaker verification: An overview》)。
       

    2.5 重放

       最简单的欺骗攻击之一是重放攻击。重放是一个预先录制的目标说话人声音的语音信号,使用录音设备捕获它,以获得对系统的欺诈访问(《Vulnerability in speaker verification-a study of technical impostor techniques》,《Speaker verification performance degra- dation against spoofing and tampering attacks》,《Detecting replay attacks from far-field recordings on speaker verification systems》)。这种攻击的声音特性(因录音设备和环境等因素)与目标扬声器的自然声音稍有不同。因此,重放是最具挑战性的检测,并有很高的可能性欺骗系统。
       
       真实的语音信号 s [ n ] s[n] s[n]可以建模为声门气流 p [ n ] p[n] p[n]和声道脉冲响应 h [ n ] h[n] h[n](《Discrete-Time Speech Signal Processing:Principles and Practice》)的卷积,即声门气流 p [ n ] p[n] p[n]和声道脉冲响应 h [ n ] h[n] h[n]的卷积。
s [ n ] = p [ n ] ∗ h [ n ] (1) s[n] = p[n]*h[n] \tag{1} s[n]=p[n]h[n](1)       另一方面,重放语音信号 r [ n ] r[n] r[n]可以建模为真实语音信号 s [ n ] s[n] s[n]与中间器件(重放和记录器件)的脉冲响应 η [ n ] η[n] η[n]与传播环境和加性噪声 N [ n ] N[n] N[n]的卷积:
r [ n ] = s [ n ] ∗ η [ n ] + N [ n ] (2) r[n] = s[n] * η[n] + N[n] \tag{2} r[n]=s[n]η[n]+N[n](2)       其中 η [ n ] η[n] η[n]是额外的卷积分量,它是记录设备 h m i c [ n ] h_{mic}[n] hmic[n]、记录环境 a [ n ] a[n] a[n]、播放设备(多媒体说话人) h s p k [ n ] h_{spk}[n] hspk[n]和播放环境 b [ n ] b[n] b[n](《Re-assessing the threat of replay spoofing attacks against automatic speaker verification》)的脉冲响应的组合。
η [ n ] = h m i c [ n ] ∗ a [ n ] ∗ h s p k [ n ] ∗ b [ n ] (3) η[n] = h_{mic}[n] * a[n] * h_{spk}[n] * b[n] \tag{3} η[n]=hmic[n]a[n]hspk[n]b[n](3)       重放SSD具有挑战性的任务是检测重放语音的频谱和时间变化(《An assessment of automatic speaker verification vulnerabilities to replay spoofing attacks》)。用回放设备记录的语音信号包含来自中间设备和背景的卷积和附加失真(《Re-assessing the threat of replay spoofing attacks against automatic speaker verification》)。重放攻击检测的一个重要环节是特征表示过程。为了获得自然语音信号和重放语音信号之间的鉴别信息,应该关注代表中间设备信息的频谱特征(《A new approach for robust replay spoof detection in ASV systems》)。图6为取自ASVspoof 2017 Challenge数据库的自然语音和重放语音信号的光谱分析(《The ASVspoof 2017 challenge: Assessing the limits of replay spoofing attack detection》)。图6中的第I面板为自然语音信号,对应的是原始语音信号的发声声谱图,动作比言语更响亮,同样,第II面板为重放语音信号。由图6可以看出,由于 Eq.(2) 所示的重放语音模型,第I组(自然组)和第II组(重放组)语音信号在时间和频谱表示上存在差异。
图6
       

  3 数据库和性能评估指标

       在欺骗攻击领域可用的数据库是十年前开发和使用的,使用的是不同的语音和说话者识别数据库,如YOHONISTWSJ。表1中报告了每种欺骗攻击的数据库。自2015年以来,研究人员正在开发标准数据库,并将其公开。目前开发的标准数据库包括SASASVspoof 2015\2017 challengeASVspoof\RedDots Replayed databases。然而,标准模拟数据库尚未公开,因此《Speaker recognition: A tutorial》报道的研究使用的是为ASV系统设计的YOHO数据库。
       

    3.1 ASV spoof 2015 Challenge

       ASV spooof 2015 Challenge数据库是为ASV spoofing and countermeasures challenge创建的,其中包括自然和欺骗语音(《Spoofing and countermeasures for speaker verification: A survey》)。该数据库仅包含通过逻辑访问的语音合成和语音转换欺骗,即直接注入系统。没有显著的通道或背景噪声影响。为了进行训练、评估和测试,整个数据库被划分为三个数据集。每组都有不同的演讲者。数据库中发言者的人数见表2。数据库的详细描述在(《Spoofing and countermeasures for speaker verification: A survey》,《ASVspoof 2015: The first automatic speaker verification spoofing and countermeasures challenge》,《SAS: A speaker verification spoofing database containing diverse attacks》)中给出。
表2

       

    3.2 AVspoof Database

       AVspoof数据库引入重放欺骗攻击和SSVC欺骗攻击,通过逻辑和物理访问产生。BTAS 2016挑战赛使用了该数据库,数据库的详细信息见(《On the vulnerability of speaker verification to realistic voice spoofing》)。数据库统计数据如表3所示。该数据库报告各种各样的表示攻击。在测试集中引入未知攻击,使比赛更具挑战性。该挑战的组织者提供了一个基于开源Bob工具箱的基线系统。基线系统由简单的基于谱图的比率作为特征,logistic回归作为模式分类器组成。
表3
       

    3.3 RedDots Replayed Database

       与其他最近的欺骗干扰数据库一样,新数据库的设计是为了支持重播欺骗干扰对策的发展。这个数据库是与文本相关的ASV系统从重放攻击组成的记录和重放条件。这个数据库来自于对原始的RedDots数据库的重新记录。RedDots语料库是真实的语音,它的回放则是被欺骗的数据。在欧盟Horizon 2020资助的OCTAVE项目中,通过各种不同的环境记录了欺骗数据。这些努力是为了与依赖文本的ASV保持一致,因此,为评估重放欺骗反措施做好了准备。表4报告了RedDots重放数据库的统计数据。
表4
       

    3.4 ASVspoof 2017 Challenge

       ASVspoof 2017 Challenge数据集主要基于RedDots语料库及其重放语音,基本是文本相关的数据库。trainingdevelopmentevaluation子集的说话人人数,以及对应的真假话语人数如表5所示。
表5
       主办方发布了修改后的ASVspoof 2017 2.0版数据库。组织者纠正了在评估后发现的数据异常(偏离预期的东西)。他们在发布数据库的第二个版本中得到了修补。随着修正的数据,更详细的描述记录和回放设备以及声学环境也被报道。
       

    3.5 性能评估指标

       欺骗干扰检测指标,因此,得到的结果是不可比性的。这些研究成果局限于欺骗干扰和反欺骗干扰研究中常用的评价指标。现在,研究人员使用等错误率(EER)作为常用的评估指标。给定一个测试语音样本,由SSD系统评估接受或拒绝样本的决策,SSD系统有四种可能的决策,如表6所示,其中错误接受率(FAR)和错误拒绝率(FRR)是错误分类。有两种可能的正确结果和另外两种可能的错误结果,即FARFRR
表6
       针对某一特定系统,在决策阈值 θ θ θ处,采用虚警率和漏报率计算检测分数,分别表示为 P f a ( θ ) P_{fa}(θ) Pfa(θ) P m i s s ( θ ) P_{miss}(θ) Pmiss(θ),计算结果如下:
P f a ( θ ) = s p o o f   t r i a l s   w i t h   s c o r e > θ t o t a l   s p o o f   t r i a l s (4) P_{fa}(θ)=\frac { spoof \ trials \ with \ score > θ}{total \ spoof \ trials} \tag{4} Pfa(θ)=total spoof trialsspoof trials with score>θ(4) P m i s s ( θ ) = g e n u i n e   t r i a l s   w i t h   s c o r e ≤ θ t o t a l   g e n u i n e   t r i a l s (5) P_{miss}(θ)=\frac { genuine \ trials \ with \ score \le θ}{total \ genuine \ trials} \tag{5} Pmiss(θ)=total genuine trialsgenuine trials with scoreθ(5)       其中 P f a ( θ ) P_{fa}(θ) Pfa(θ) P m i s s ( θ ) P_{miss}(θ) Pmiss(θ) θ θ θ的单调减函数和单调增函数。当两种检测错误率重合时,EER对应于 θ E E R θ_{EER} θEER的阈值,即:
E E R = P f a ( θ E E R ) = P m i s s ( θ E E R ) (6) EER = P_{fa}(θ_{EER}) = P_{miss}(θ_{EER}) \tag{6} EER=Pfa(θEER)=Pmiss(θEER)(6)       分数高于阈值的冒充试验将被错误地归类为真实试验,而分数低于阈值的真实试验将被错误地归类为冒充试验。由于这两种误差是负相关的,通常需要将性能作为阈值θ的函数来说明。对于一个特定的数据集D,这样的测量是一半总错误率(HTER):
H T E R ( θ . D ) = F A R ( θ , D ) + F R R ( θ , D ) 2 (7) HTER_{(\theta.D)} = \frac {FAR_{(\theta,D)} + FRR_{(\theta,D)}}{2} \tag{7} HTER(θ.D)=2FAR(θ,D)+FRR(θ,D)(7)       性能也可以用检测误差权衡(DET)曲线来图解,如图7所示。这里显示的DET曲线是主要系统结果的总结,以及ASVspoof 2017挑战数据库上的两个基线(B01B02)重放/非重放检测器。DET曲线说明了不同决策阈值 θ θ θ的行为,并显示了FARFRR之间的权衡。最近,报道的研究提出了串联检测成本函数(t-DCF)度量。这是对联合欺骗干扰对抗和ASV系统进行评估的一种优雅的解决方案。在模拟欺骗检测任务中报道了这方面的一个初步尝试。t-DCF用于评估与欺骗干扰对策(CM)相结合的ASV系统,如图8所示。
图7、8
       完善的对策体系的EER值为0%。特别是当该位置的误报(或误拒),和对策(CM)的误报(或误接受)率,即 P m i s s c m = P f a c m = 0 P^{cm}_{miss}=P^{cm}_{fa}=0 Pmisscm=Pfacm=0
t − D C F C M ( θ ) = C m i s s a s v π t a r P m i s s a s v ( θ ) + C f a a s v π n o n P f a a s v ( θ ) (8,9) t-DCF_{CM(\theta)} = C^{asv}_{miss} \pi_{tar} P^{asv}_{miss}(\theta) + C^{asv}_{fa} \pi_{non} P^{asv}_{fa}(\theta) \tag{8,9} tDCFCM(θ)=CmissasvπtarPmissasv(θ)+CfaasvπnonPfaasv(θ)(8,9)       且 C m i s s a s v C^{asv}_{miss} CmissasvASV系统拒绝目标试验的成本。 C f a a s v C^{asv}_{fa} CfaasvASV系统接受非目标试验的成本。 P m i s s a s v P^{asv}_{miss} Pmissasv P f a a s v P^{asv}_{fa} Pfaasv是定义FRR率的公式,以及ASV系统在阈值( θ θ θ)时的FAR值。
       

  4 合成欺骗攻击的对策

       近年来,研究人员在前端和后端的欺骗干扰和反欺骗干扰领域提出了多种对策。本节将讨论针对综合SSD任务提出的对策。第一次ASVspoof 2015挑战赛为研究人员提供了一个共同的平台,可以制定各种对策来解决SSD问题。传统的欺骗语音检测方法分为特征提取和模式分类两部分,如图9所示。第二种方法是以端到端欺骗检测的形式使用DNN,如图10所示。在这里,特征表示和分类任务都是使用深度架构执行的,然后是决策。首先,我们将讨论包括传统特征提取和分类器的经典方法,如GMM和支持向量机(SVM)。
图9、10
       

    4.1 经典方法

       合成SSD的研究问题始于几十年前。在基音(基频,F0)模式的不稳定性检测自然和SS欺骗使用时间调制特征。相对相移(Relative Phase Shift, RPS)特征是对SS语音进行分类和提高ASV系统安全性的众所周知的方法。然而,这些方法是在非公开可用的数据库上提出的,而且,它们没有一个共同的性能评价指标。因此,需要制定一个标准协议、绩效评估指标并将其公开,等等,这是组织ASVspoof 2015 Challenge的动机。在ASVspoof 2015挑战赛中,我们发现基于信号处理的特征比复杂的分类器更能检测合成语音信号。到目前为止,我们提出了各种对策,并在ASVspoof 2015 Challenge数据库上进行了评估。一般来说,研究人员使用Constant-Q倒谱系数(CQCC)、线性频率倒谱系数(LFCC)和耳蜗滤波器倒谱系数瞬时频率(CFCCIF)作为该挑战数据库中比较的最先进的特征集。CFCC-IF特征提取如图11所示,每个的特征在挑战期间形成最好的,由Speech Research Lab DA-IICT提出。
图11
       CQCC特征是用Constant-Q变换(CQT)提取的,这是一种感知启发的替代傅立叶基于时频分析方法。CQCC特性被发现可以在三个不同的数据库(即ASVspoof 2015 ChallengeAVspoofRedDots重放数据库)中推广,并且在每个案例中都提供了最先进的性能。CQCC特征提取的框图如图12所示。
图12
       其他主要对策包括基于阶段的特征,如基于修改组延迟(Modified Group Delay, MDG)的特征和RPS。其他文献探讨了基于高维量级的特征、基于相位的特征和长期时间信息的使用。特别地,图13显示了两个基于幅度的特征集(对数幅度谱(LMS)和残余对数幅度谱(RLMS))和五种基于相位的特征集(群延迟(GD)、MGD、瞬时频率导数(IF)、基带相位差(BPD)和节距同步相位(PSP))。探索了利用子带处理提取的特征,如LFCCCFCCIF和能量分离算法-瞬时频率倒谱系数(ESA-IFCC)。子频带处理的基本动机是人耳在子频带中处理语音。中频和包络是感知各子带语音信号的重要时间特征。还有对策也提出了基于源的激励强度、基频(F0)等特征用于SSD任务。作者通过小波滤波器组使用散射分解,并将滤波器输出得到如图14所示的尺度图。
图13
图14
       

    4.2 表征学习方法

       有多种使用表示学习的方法,可以是特征学习的形式,也可以是模式分类器的形式。在ASVspoof 2015 Challenge中,部分队伍使用DNN作为分类器。早先,我们观察到使用DNN进行表示学习,然后使用GMMSVM分类器比使用DNN作为分类器更成功。利用DNN得到的隐含层表示作为特征(称为欺骗向量或s向量)和马氏距离进行分类。CNNRNN分类器以及三个特征进行了探索,即Teager能量算子(TEO)临界带自相关包络(TEO-CB-Auto-Env)、感知最小方差无失真响应(PMVDR)和原始光谱图。
       
       首先,将DNN用于特征学习的显著方法与LDAGMM分类器一起使用。采用DNNRNN分别提取帧级和序列级特征,得到从S1S9的所有攻击类型的EER0.0%,在所有平均条件下的EER1.1%。从DNN隐藏层提取的瓶颈特征也被用于GMM分类器。我们提出使用卷积受限玻尔兹曼机器(Convolutional Restricted Boltzmann Machine, ConvRBM)进行听觉滤波器组学习,在SSD任务中比传统手工滤波器组学习效果更好。分析在ASVspoof 2015数据集上训练的ConvRBM滤波器组,发现与在TIMIT等自然语音数据库上训练相比,ConvRBM学习了更多的低频子带滤波器。在部分SSD任务中,也提出了使用DNN的有监督听觉滤波器组学习。一阶和二阶长期光谱统计(LTSS)与各种分类器一起用于合成SSD任务,结果表明使用DNN获得了更好的性能。
       
       最近,端到端DNN方法出现在各种语音和音频处理应用中。端到端DNN的目标是从原始语音和音频信号中学习声学表示,并在DNN网络中执行分类任务。在合成SSD任务中,利用卷积神经网络(Convolutional Neural Network, CNN)对原始语音信号进行特征学习,并进行二值分类任务。与CNN层一起,长短期记忆(LSTM)层被用于一个称为卷积LSTM DNN (CLDNN)的体系结构中,直接对原始语音信号进行训练。CLDNN体系结构能够从S1-S9评估集获得0%EER。但是,它在S10上的表现并不好。因此,开发端到端综合SSD任务网络仍然是一个具有挑战性和潜在的研究课题。
       
       还有工作提出了一种新的人类对数似然(HLL)评分方法的DNN分类器,该分类器的性能明显更好,所有攻击类型的平均EER达到0.045%。研究人员证明HLL评分方法比经典LLR评分方法更适合SSDtask,特别是在欺骗语音与人类语音非常相似的情况下。发展的DNN模型体系结构如图15所示。输出softmax层由代表欺骗和人类(自然)语音标签的神经元组成。据研究人员所知,ASVspoof 2015挑战赛数据库更新的对策清单总结见表7
表15
表7
       

  5 重放欺骗攻击的对策

    5.1 经典方法

       在过去的几十年里,使用高保真记录设备来欺骗系统,因此,提出了防范这些攻击的对策。谱峰映射方法被提出作为检测远程电话交互重放攻击的对策。部分工作处理了带有远场录音的重放攻击。
       
       在第二届ASVspoof 2017挑战赛中,针对重放语音信号的检测进行了进一步的研究并探索了新的对策。具有CQCC特征和GMM分类器设置的基线系统由挑战的组织者提供,因为它在早期挑战(后评估)中表现更好。然而,基线系统并没有表现得更好,因此,有必要在特征侧或分类器侧发展一个强大的对抗措施。声学特征,如矩形滤波器倒谱系数(RFCC)、子带谱质心幅度系数(SCMC)、子带谱质心频率系数(SCFC)、利用子带谱通量系数(Subband Spectral Flux coefficient, SSFC)检测重放语音,发现特征归一化后的SCMC方法比各种声学特征的检测效果更好。利用Mel倒频谱系数(Inverse Mel Frequency Cepstral Coefficients, IMFCC)、线性预测倒频谱系数(Linear Prediction Cepstral Coefficients, LPCC)和LP残差特征进行分析,发现高频区域比其他频率区域具有更多的鉴别信息。研究了支持向量机分类器对CQCC特征集均值和方差归一化的影响。其中一种方法使用了单频滤波(SFF),发现了高分辨率时间特征的重要性。
       
       利用能量分离算法(ESA)获得的短时调幅-调频特征集在中进行了研究,如图16所示。这些特征也通过使用CFCC-IFIFCCEMDCC进行子带滤波器分析得到。基于激励源的特征研究,基于小波的特征研究,基于相位的特征研究。部分工作研究了决策级特征切换的概念,以及来自非浊音段的信息。
图16
       

    5.2 表征学习方法

       ASVspoof 2017挑战的三个关键观测结果是:在更高频率区域使用光谱信息、特征归一化和表示学习方法。研究表明,许多基于表征学习的方法在2017ASVspoof挑战赛中表现得更好。首先,我们描述了ASVspoof 2017挑战赛中使用的表示学习方法。提出了利用深度残差网络(deep residual network, ResNet)和语音信号原始谱图进行端到端重放欺骗检测。研究还表明,DNN中的数据增强显著提高了性能。其中一种方法是训练DNN区分ASVSpoof 2017挑战数据库中可用的各种通道条件,即录音、回放和会话条件。DNN特征先从CQCCHFCC特征中学习,然后使用SVM分类器进行分类。研究人员还探索了使用ResNetGMMDNN的模型融合策略,发现其性能优于单个系统。特别是,ASVspoof 2017 Challenge优胜者系统使用CNNRNNSTFT光谱图中进行表示学习,然后使用GMM分类器。
       
       最近,有作者提出使用ConvRBM学习听觉滤波器组,然后使用ESA进行AM-FM解调,用于重放SSD任务。我们还表明,当使用如图17所示的预先强调的语音信号时,ConvRBM学习子带滤波器以更好的方式表示发送高频信息。将表示学习和信号处理技术相结合,可显著提高重放SSD任务的效率,开发效率为0.82%,评价集效率为8.89%。在一个端到端抗欺骗网络中使用了一种叫做神经进化增广拓扑(neural evolution of augmented topology, NEAT)的新算法。NEAT框架还为DNN引入了一个新的适应度函数,结果比基线系统更好地泛化,并在ASVspoof 2017数据库上提高了22%的相对性能。
图17
       最近,一种新颖的视觉注意机制被用于深度
ResNet
架构,该机制使用群延迟特征(GD谱),导致开发集和评估集的EER分别为0%。使用全局平均池(GAP)的类激活映射(CAM)利用了CNN中存在的内隐注意机制。部分工作中提出的框架框图如图18所示。因此,与合成SSD任务相比,表示学习方法是重放SSD任务非常有前途的方向。据作者所知,ASVspoof 2017挑战数据库的对策更新清单总结见表8
图18
表8

       

  6 局限性和技术挑战

       在本节中,我们总结了目前在这一领域的研究成果,也讨论了一些局限性和未来可能的研究方向。
       
       (i)逻辑和实际访问:
       物理访问是实际的欺骗,即通过麦克风将语音回放到ASV系统。然而,ASVspoof数据库特别关注逻辑访问攻击。对于这种攻击,我们假设欺骗样本是通过一个基于软件的流程直接注入系统的。因此,物理访问攻击比逻辑访问攻击更现实,逻辑访问攻击是攻击者向系统播放录制的语音。该语音既可以从真实说话人那里获得,也可以使用语音转换(VC)或语音合成(SS)算法伪造。这就引起了今后开发数据库时对物理访问攻击的进一步研究。
       
       (ii)欺骗攻击的多样性:
       ASVspoof 2015挑战数据库仅包含VCSS欺骗算法。这个数据库包含七种VC欺骗技术和三种SS技术的变体。而ASVspoof 2017挑战数据库只关注重放欺骗。然而,ASVspoof 20152017数据库包括SS, VC和重放欺骗技术。这些欺骗技术缺乏与基于深度学习的技术,如DNN, GAN等,SS技术也可以被视为欺骗技术的最新发展。
       
       (iii)与ASV系统的联合协议性能:
       许多研究报告了ASV系统与对策一起使用时的性能。所使用的对策不应影响ASV系统的性能。一种很好的对策是通过拒绝欺骗的语音来减少FARs。然而,当它们与联合ASV系统一起使用时,所使用的功能应具有较低的FRR,以减少真正试验的拒绝率,为用户提供方便。没有保证有一个性能更好的对策,提供更低的EERASV系统性能的可靠。因此,随着欺骗检测研究的不断深入,评估指标必须不断演化,以反映联合协议系统的性能。
       
       (iv)说话人数量:
       不同的欺骗数据库由不同数量的演讲者组成,这些演讲者要么是男性,要么是女性,或者两者都是。在ASVspoof 2015挑战赛数据库中,发言人数包括了大量的发言人(男性和女性),而在ASVspoof 2017挑战赛数据库中,考虑到只有男性发言。研究表明,当训练中使用的演讲者数量增加时,%EER的表现就会提高。然而,性能会随着欺骗攻击和训练中使用的特性而变化。因此,成绩衡量也应证明独立对待发言者的人数和审议中的发言者的声音是合理的。
       
       (v)信号退化情况:
       目前公开可用的欺骗数据库是在干净的条件下开发的。然而,最近的重放数据库是在各种声学环境条件下记录的。在ASVspoof 2015挑战数据库中,通过在不同信噪比(SNR)水平上添加各种噪声来开发噪声数据库。不同噪声类型的差异对SSD性能的影响还有待进一步研究。此外,本研究还需要观察人工添加添加剂噪声和通过声环境自然添加噪声时对SSD的影响。例如,对不同背景、麦克风等下的重放数据库进行了研究。因此,必须制定对策,以及它应该是稳健的信号退化条件。
       
       (vi)ASV中的健壮性意味着脆弱性:
       在实际应用中,我们希望ASV系统能够抗各种变化,如麦克风和传输信道、通话间隙、噪声、扬声器老化等。这种鲁棒性使得ASV系统在试图消除这些影响的同时容易受到各种欺骗攻击,特别是对于重放语音,使得欺骗语音更接近自然语音。因此,ASV系统中的这种健壮性使得SSD变得更加困难(技术上具有挑战性),因此,需要更新的方法来缓解这种困难。
       
       (vii)缺乏开发激励源信息:
       假设声门关闭瞬间(GCI)对于语音具有尖锐的类似脉冲的性质,那么使用激励源所做的工作就少了。浊音声源频谱(声门流波形)在频域上具有谐波结构。因此,与谐波结构退化的任何偏差都可以捕获欺骗语音的特征。据作者所知,目前还没有关于分析这一特定方面的研究报告。我们认为,一些来源信息,如线性预测(LP)残差、Teager能量算子(TEO)剖面及其变长(VTEO)剖面等,可以在最近的研究框架中进行探索。
       
       (viii)探索基于阶段的特性:
       需要注意的是,根据欺骗的类型,基于相位的特征(时域分析或频域)可以捕获欺骗语音中的不同类型的信息。例如,在USS系统中,当通过优化目标代价拾取语音单元时,在合成语音中会有线性相位信息(因为这些单元是在不同的会话中记录的)。另一方面,对于重放语音,声学环境(如房间)的脉冲响应与自然语音进行了卷积。声学系统的脉冲响应(在这种情况下的房间)在持续时间上是无限的,即自然界中的无限脉冲响应(IIR)(由于无限的传输和反射)。因此,该声学系统的频域非线性相位被加入到自然语音的相位中。此外,这种非线性相位在时域上也可以观察到相应的影响,如频率分量上的非整数延迟。因此,基于阶段的SSD任务研究还需要进行更深入的研究。
       
       (ix)哪种分类器:传统/神经网络:
       传统分类器(GMMGMM- UBMSVM)不具备更深层次模型(DNNCNNRNNLSTM)所具有的特征提取能力。例如,GMM分类器只捕获特征向量的一阶和二阶统计量。另一方面,基于神经网络的分类器捕捉特征的非线性方面。因此,这就需要对特定分类器对SSD问题的适用性进行更深入的研究。
       
       (x)人类与机器学习的比较:
       人类感知在识别欺骗攻击中是否重要是一个很有意义的问题,因此,人类在检测欺骗攻击方面能取得比自动方法更好的性能。有一个基准研究比较了自动系统与人类在说话人验证和合成语音欺骗检测任务(SSVC欺骗)上的表现。据观察,除了USS语音外,人类侦听器检测欺骗的能力不如大多数自动方法。在一项类似的研究中发现,当使用窄带语音信号(采样频率为8kHz)时,人类和机器都难以检测欺骗干扰。因此,对于电话线语音信号来说,SSD的可用带宽更低,最高可达4千赫。研究人类在重放SSD任务中的性能具有重要意义。
       
       (xi)对高质量语音合成器的鲁棒性:
       近年来,提出了许多基于表示学习的高质量语音合成技术,取得了明显更好的自然度。WavenetGAN和另一种新颖的端到端语音合成体系产生了高质量的合成语音。研究还表明,使用基于GAN的语音增强技术,可以利用低质量的公共可用数据库生成高质量的欺骗数据。这种高质量的TTSVC技术可能会进一步增加合成SSD的难度。该技术可用于在下一版ASVspoof挑战中生成欺骗语音数据库。
       

  7 总结与结论

       本文概述了SSD任务。我们回顾了合成检测和重放检测的不同对策,特别是经典和表示学习方法。该研究还报告了在欺骗干扰检测中涉及的各种技术挑战,并讨论了各种欺骗数据库及其局限性。本文还讨论了ASV任务欺骗干扰领域的最新进展。
       
       针对ASV系统在不同欺骗攻击下的脆弱性进行了大量的研究。在各种欺骗数据库的开发过程中,如何再现真实的攻击条件是一个特别具有挑战性的问题。在特定的控制条件下,会开发出不同的欺骗攻击,因为在市场上收集具有所有不同可能性的数据库是不可行的。性能指标通常分布在列车、开发和测试集中,其中这些单独的集合在所有集合中有几乎相似的欺骗示例。然而,ASV的真实场景代表了一种开放集的评估,对攻击给定ASV系统所使用的欺骗没有任何约束。
       
       在本文所描述的当前欺骗干扰环境和10多年欺骗干扰研究的经验教训中,仍然有一些需要回答的开放问题。他们是:语音生物识别欺骗的未来挑战是什么?还有哪些问题需要进一步研究?我们将何去何从?
       
       目前,最迫切需要的是定义一个明确的方法来评估欺骗攻击。这不是一个简单的问题,因为在开发欺骗算法的过程中涉及到许多新的变量。另一个有趣的教训是,不存在能够在所有欺骗行为中都具有一致性能的高级反欺骗技术。仅使用一种对策将取决于攻击场景的性质和数据采集条件。因此,针对不同的欺骗干扰数据,需要采用融合的方法来开发高性能的欺骗干扰对策。此外,也不应忽略实际考虑。随着技术的进步,硬件设备和信号处理方法等新技术不断涌现。因此,跟踪这种技术进步是很重要的,因为这种进步可能是开发一种新的和有效的对策的关键。
       
       最后,虽然现在在欺骗干扰检测领域有大量的工作报告,不同的方法和攻击也已经进化,变得越来越复杂。因此,要防范欺骗攻击还需要面对许多重大挑战,希望在未来几年,新一代更安全的语音生物识别系统将引领这一挑战。
       
       

Muhammad, Jalaluddin & Akbar,. (2019). A Overview of Spoof Speech Detection for Automatic Speaker Verification.

  • 3
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值