【论文学习】《Replay attack detection with complementary high-resolution information using end-to-end DNN 》

《Replay attack detection with complementary high-resolution information using end-to-end DNN for the ASVspoof 2019 Challenge》论文学习

  摘要

       在本研究中,我们专注于利用互补的高分辨率声谱图,将端到端 DNN 替代手工提取声学特征的过程。
       由于音频设备的进步,基于传统知识的重放语音的典型特征在未知的重放配置中改变或减少。
       因此,使用传统的基于知识的方法检测欺骗语音变得越来越困难。
       为了检测重播语音中隐藏的特征,我们直接将声谱图输入到端到端的 DNN 中,无需基于知识的干预。
       本研究中涉及的探索与现有的基于谱图的系统的区别在于两个方面:互补信息和高分辨率。
       研究了具有不同信息的谱图,结果表明,相位信息等附加信息可以相互补充。
       在使用高分辨率声谱图时,假设真实语音和重放语音之间的区别存在于细节中。
       此外,为了验证其他特征是否与谱图互补,我们还研究了原始波形和基于 i 向量的系统。
       在 ASVspoof 2019 物理访问挑战上进行的实验显示了良好的结果,其中评价集的 t-DCF 和等错误率分别为 0.05702.45%
       
       关键词 —— 重放检测,反欺骗,说话人识别,表征学习,深层神经网络
       

  1 介绍

       自动扬声器验证( ASV )系统已广泛应用于各个行业。
       然而,欺骗攻击对 ASV 系统的可靠性构成了威胁,需要对欺骗干扰检测系统进行研究。
       顺应这一趋势,自动说话人验证欺骗干扰与对策( ASVspoof )倡议为后续研究、研究和比较欺骗干扰检测系统提供了一个平台。
        ASVspoof Challenge 已经涵盖了各种欺骗攻击,如 2015 年的语音合成( TTS )和语音转换( VC ),以及 2017 年的重放攻击(《Asvspoof 2015: the first automatic speaker verification spoofing and countermeasures challenge》,《The asvspoof 2017 challenge: Assessing the limits of replay spoofing attack detection》)。
        ASVspoof2019 挑战处理 TTSVC 技术的进步,作为逻辑使用和重放攻击的控制模拟,物理使用(《Asvspoof 2019: Future horizons in spoofed and fake audio detection》) VCTTS 需要专业知识和专业设备。
       相比之下,重放攻击不需要任何专业知识或专门设备。
       它可以简单地通过使用录音设备获取目标说话人的声音,然后使用回放设备重放。
       在这个过程中,一个不同的组合回放和回放设备与背景环境可以使用,这被称为“重放配置”。
       尽管攻击方案简单,但重放攻击已被证明是一种欺骗 ASV 系统的有效方法。
       本文主要研究重放检测任务。
       
       通过对以往的重放检测研究(包括过去的 ASVspoof 比赛)的调查,我们发现很多研究都集中在寻找鉴别特征来改进欺骗检测(《Experimental analysis of features for replay attack detection-results on the asvspoof 2017 challenge》,《Independent modelling of high and low energy speech frames for spoofing detection》,《End-to-end audio replay attack detection using deep convolutional networks with attention》,《Spoofing speech detection using high dimensional magnitude and phase features: The ntu approach for asvspoof 2015 challenge》)。
       这些特征包括常 Q 倒谱系数( CQCC )、逆 Mel -滤波倒谱系数( IMFCC )、线性预测倒谱系数( LPCC )和群延迟( GD )- grams
       这些特征集中于表示语音的特征,在传统的重放检测知识中,这些特征被认为是有区别的。
       例如, IMFCC 专注于高频段,利用重放语音的高频段经常被扭曲的知识。
       然而,由于录音和回放设备的进步,重播语音中的失真减少了。
       我们假设,由于这一现象,传统特征的辨别能力将下降。
       
       为了减少重放语音的失真,我们探索了一种最小化传统知识干预的方法,并充分利用基于 DNN 的数据驱动方法。
       我们在本研究中主要关注的是提供适当的未处理的、高分辨率的互补信息,以促进端到端的 DNN
       该方法不仅结合一般谱图的幅值信息,还结合相位信息和功率谱密度( PSD )等互补信息。
       我们探索相位信息,该信息已被证明在重放攻击检测中是有效的(《End-to-end audio replay attack detection using deep convolutional networks with attention》,《Relative phase shift features for replay spoof detection system》,《Multiple phase information combination for replay attacks detection》,《Detection of replay-spoofing attacks using frequency modulation features》), PSD 集中于功率信号在频率上的分布,而不是集中于频谱内容。
       为了验证该方法的有效性,我们用 PSD 研究了不同谱图的模型水平和分数水平的集成。
       实验证明,利用互补特征对基于光谱图的深度神经网络( DNNs )的直接建模有很大的帮助。
       
       此外,我们对所有特征使用了 2048 个高分辨率快速傅里叶变换( FFT ) 箱。
       由于重放攻击的发展,差异可能更微妙,更不明显,需要关注微小的区别。
       我们的对比实验表明,分辨率显著影响实际性能。(见表 1 )
表1

1 : 各种FFT分辨率的性能比较
采用单一最佳系统的幅度谱图进行比较
在这些实验中,窗口长度和移位大小分别固定在 30ms10ms ,以确保窗口内的样本数量大于 nFFT
nFFT 2048 模型与表 1 的性能差异是由于窗长和移位大小不同

       

  2 端到端DNN

       我们引入了一种端到端的 DNN ,该 DNN 通过减少传统知识的干扰来减少重放语音的失真。
       使用声谱图作为输入,端到端 DNN 代替了选择鉴别部分的子过程,使得中间表示更适合于数据。
       当频谱图输入时,该模型的输出直接指示决策得分,从而简化了流程。
       在各种音频领域任务中,最先进的方法是利用 DNN 直接输入声谱图(《Generalized end-to-end loss for speaker verification》,《Towards end-to-end speech recognition with recurrent neural networks》,《Attention-based models for speech recognition》,《Translating videos to natural language using deep recurrent neural networks》)。
       
       本研究中使用的 DNN 包括卷积神经网络( CNNs )、门控循环单元( GRUs )和全连接层( CNN-GRU ),如文献(《A complete end-to-end speaker verification system using deep neural networks: From raw signals to verification result》,《Avoiding speaker overfitting in end-to-end dnns using raw waveform for text-independent speaker verification》,《Short utterance compensation in speaker verification via cosine-based teacher-student learning of speaker embeddings》)所使用。
       
       在该体系结构中,输入特征首先使用卷积层进行处理,提取帧级嵌入。
       卷积层由残差块(《Deep residual learning for image recognition》)和身份映射(《Identity mappings in deep residual networks》)组成,便于深度架构的训练。
       具体来说,我们的模型的第一个卷积层处理局部相邻的时间和频率域,并通过重复池化操作逐渐聚合以提取帧级嵌入。
       然后,利用 GRU 层将提取的帧级特征聚合为单一的话语级特征。
       一个全连接层用于转换话语级特征。
       带有两个节点的输出层表示输入话语是真实的或欺骗的。
       

  3 互补的高分辨率特性

       在本节中,我们将介绍在无需人工干预的情况下进行端到端 DNN 训练的关键方面;提供补充信息,使用高分辨率。
       为了对未知的重放配置进行归纳,我们假设使用 DNN 提供不同的原始信息作为输入,并执行数据驱动的特征选择的方法将为欺骗检测提供一个更合适的特征提取过程。
       基于这一假设,我们探索了包含各种高分辨率信息的声谱图,以期比传统知识提取的声学特征更好。
       具体来说,除了包括幅度信息的一般谱图外,还利用了相位信息和 PSD
       一般来说,声谱图是指包含快速傅里叶变换(FFT)绝对值的幅值谱图。
       尽管相位信息在许多音频领域经常被忽视,但最近的研究表明,基于相位的特征为重放检测提供了可鉴别的信息(《End-to-end audio replay attack detection using deep convolutional networks with attention》,《Spoofing speech detection using high dimensional magnitude and phase features: The ntu approach for asvspoof 2015 challenge》,《On phasemagnitude relationships in the short-time fourier transform》)。
       
       我们使用幅度谱图和相位谱图,假设相位信息可以补充幅度信息而不需要额外的提取过程,因为两者都使用 FFT 的部分信息。
       我们还利用 PSD 进行进一步改进。
       由于 PSD 集中于信号功率在频率上的分布,它不同于幅值或相位,而幅值或相位则集中于频谱内容。
       因此,同时使用 PSD 和谱图可以考虑整体信号强度的频率分布以及信号中幅值和相位的谐波。
       为了利用这些不同的信息,我们在模型级和分数级两方面探索了组合。
       模型级集成向单个 DNN 输入各种特征,而评分级集成利用多个 DNN ,并分别对 DNN 输出进行评分求和。
       为了进一步分析互补信息之间的关系,我们使用不同的谱图对每种组合进行了比较。
       图 1 显示,即使是相同的语音,不同的线索(粉色框)也可以用于欺骗检测,这取决于使用的谱图的类型。
图1

1 : 真实(上)和重放(下)声谱图的可视化和 PSD : 幅度(左),相位(中)和 PSD (右)
小区域(粉色盒子)的细微差异说明了重放攻击欺骗干扰检测任务的难度和高分辨率的必要性

       

       如前所述,随着音频设备质量的提高,检测欺骗话语的难度已经增加,因为真实语音和欺骗语音之间的显著差异已经减少。
       这就需要使用高分辨率的输入,这可以用来演示回放欺骗话语中存在的细微差别。
       在这项研究中,所有的光谱图都使用了 2048 个高分辨率 FFT 箱。
       我们受到了 Tom 等人(《End-to-end audio replay attack detection using deep convolutional networks with attention》)实验的启发,实验表明基于注意力的 GD 图明显优于声谱图。
        Tom 等人在《End-to-end audio replay attack detection using deep convolutional networks with attention》中使用的 GD 图使用 2048FFT 箱获得,其分辨率高于声谱图。
       我们假设,除了使用特征的差异,分辨率的差异也可能对性能起关键作用。
       为了验证这一假设,我们进行了一个比较实验。
       表 1 中显示的结果与我们的假设相符,即使用 2048FFT 箱子的谱图的等错误率( EER )显著优于使用 512FFT 箱子的相同系统。
       

  4 实验设置

        DNN 训练使用 Keras 实现, Keras 是一个 python 深度学习库,后端为 Tensorflow (《Keras》,《Tensorflow: Large-scale machine learning on heterogeneous distributed systems》,《Tensorflow: A system for large-scale machine learning》)。
        i 向量提取使用 Kaldi 工具箱(《The kaldi speech recognition toolkit》)进行。
       

    4.1 数据集

       我们在所有实验中使用 ASVspoof 2019 物理获取的数据集。
       该数据集包括 54000 个话语作为训练集, 29700 个话语作为开发集, 137457 个话语作为评估集。
        20 个说话者( 8 名男性, 12 名女性)的话语被记录下来,采样率为 16kHz ,分辨率为 16 位。
       训练和开发数据包括 27 种不同的声学配置,使用 3 种房间大小, 3 个混响级别, 3 种说话人到 ASV 麦克风距离。
       使用 9 种不同的重放配置,作为 3 类攻击者对说话人的录音距离和 3 类说话人质量的组合。
       评估集的声学和重放配置不同于那些训练和发展集。
       

    4.2 声谱图,原始波形,和i向量提取

       使用长度为 50ms 、位移大小为 20ms 的汉明窗口提取谱图。
       使用 2048FFT 箱分别提取幅度、相位谱图和 PSD 表示。
       时间轴的数量固定在 120 ( 2.4s ),根据长度的不同,在训练阶段裁剪长话语或重复短话语进行批量构建。
       在评价阶段输入完整的话语,没有对持续时间进行调整。
       
       原始波形直接输入 DNN ,无需任何预处理。
       通过比较实验,排除了与《Avoiding speaker overfitting in end-to-end dnns using raw waveform for text-independent speaker verification》设置不同的预强调层。
       在批量构建中,通过对长话语进行随机裁剪或对短话语进行重复,每个话语的长度固定为 26244 个样本( 1.64s )。
       在评价阶段,将全部话语输入 DNN
       利用通用背景模型提取 i 向量,该背景模型包含 256 个对角高斯分量,输入 20 维梅尔频率倒谱系数及其一、二阶导数,包含 60 维声学特征。
       提取了 200 维的 i 向量,没有采用线性判别分析和长度归一化。
       

    4.3 DNN架构

       使用一个稍微修改过的 ResNet 对声谱图进行建模,考虑到由于频域的高分辨率,时间和频域的步幅不同,并调整残余块的数量以适应提供的 ASV2019 物理访问数据集。
       使用《Short utterance compensation in speaker verification via cosine-based teacher-student learning of speaker embeddings》中提出的原始波形 CNN-GRU 模型,并对模型进行了修改:减少了一个残差块,在训练阶段使用不同的指定输入话语长度来拟合数据集,增加了用于训练的中心损失函数(《A discriminative feature learning approach for deep face recognition》)和说话人基损失函数(《End-to-end losses based on speaker basis vectors and all-speaker hard negative mining for speaker verification》)。
       该模型首先使用 1 维卷积层提取 128 维框架层表示。
       然后利用 512 个节点的 GRU 层将提取的帧级特征合并为话语级特征。
       
       一个简单的全连接 DNN3 层,每层有 1024 个节点,用于 i 向量建模。
       对于所有 DNN ,采用常规初始化《Delving deep into rectifiers: Surpassing human-level performance on imagenet classification》, λ = 1 e − 4 \lambda=1e^{-4} λ=1e4 的权值衰减,并用 AMSGrad 优化器(《On the convergence of adam and beyond》)进行训练。
       此外,对于所有系统,输出层有两个节点,每个节点表示真实的和欺骗的语音。
       当输入一个话语时,输出层的节点值表示一个真实的话语,该节点值直接被用作得分(以端到端方式),而没有额外的建模。
       表 2 与表 3 总结了 DNN 的架构。
表2

2 : DNN体系结构( l 表示输入序列长度)

       

表3

3 : 在开发集上对不同类型、原始波形和 i 矢量的基于谱图的系统进行性能比较
基于多类型谱图的模型级集成结果

       

  5 结果分析

       在本节中,我们首先评估单个系统,然后验证在模型水平和分数水平上使用互补特征的效果,然后证明高分辨率是必要的。
       首先,表 32-6 行显示了单个系统的评价。
       所有的单一系统都明显优于 CQCC 基线。
       利用 FFT 绝对值的幅度谱图似乎是最适合重放攻击欺骗干扰检测的方法。
       
       其次,分析了互补谱图的使用效果。
       表 37-10 行和第 11 行分别显示了模型级和评分级融合的集成系统的结果。
       模型水平没有表现出改善,但分数水平有了显著的改善。
       令人惊讶的是,在分数级集成中加入模型级集成系统还进一步提高了性能,其中 7 个基于谱图的系统的分数级集成显示了 1.05%EER
       为了验证其他特征是否也可以补充各种高分辨率声谱图,我们探索了另外两个特征。
       我们探索了原始波形和 i 向量,因为原始波形不包括任何预处理,而 i 向量是一种众所周知的基于人类知识提取的话语级表示。
       接下来,表1通过比较不同 FFT 箱数量的性能说明了高分辨率的必要性。
       结果表明,高分辨率特征确实是重放攻击检测的关键。
       此外,通过比较光谱图系统与 2048FFT 箱在表 1 和表 2 中,有一个相当大的性能差别 50ms 窗口和 20ms 转变相比30ms 窗口和一个 10ms 的转变,无论何时都分别为 1.76%3.07%
       通过这个结果,我们注意到窗口长度和移位大小对于重放攻击检测也是至关重要的,与《Long-term spectral statistics for voice presentation attack detection》所报告的一致。
表4

4 : 提交 ASV2019 物理获取挑战条件开发和评估集的 t-DCFEER

       

       表 4 显示了 ASV2019 物理获取挑战提交系统的结果。
       基于幅度谱图的系统提交为 Single
       基于分数水平集成带来的改进,主要系统由谱图、原始波形和基于 i 向量的模型组成。
       将合并后的 i 向量和 7 个声谱图的模型提交为 Contrastive1 ,将合并后的原始波形和 7 个声谱图的模型提交为 Contrastive2
       同时添加原始波形和 i 向量,进一步将 EER 降低到 0.96% ,并作为竞赛的主要系统提交。
表5

5 : 使用 CQCC 基线和我们提交的主系统的各种攻击者对扬声器的距离和扬声器质量的评估集的性能比较
两套标签分别是攻击者-说话者距离( A : 10-50cmB : 50-100cmC : 远超过 100cm)和音质扬声器( A :完美, B :高, C :低)

       

       基线 CQCC 系统的性能分析和不同重放配置的主要提交(主要针对攻击者到通话者的距离和重放设备质量)见表 5
       结果表明,无论重放配置如何,所提出的系统在 t-DCFEER 方面都明显优于基线。
       尽管攻击者到通话者的距离和重放设备质量都显著影响性能,我们的主系统对使用高质量设备的重放欺骗更健壮。对于使用高质量设备的重放攻击(比较 AABACA ),基线系统始终表现出 EER 高于 20% ,其中我们的主提交可以表现出随着攻击者到通话者距离的减少而提高的性能。
       我们解释说,使用高分辨率在这一结果中发挥了关键作用。
       

  6 结论

       在本研究中,我们侧重于用 DNN 端到端直接建模声谱图来代替手工的特征提取过程。
       随着先进的记录和回放设备的出现,语音的特征,被认为是有区别的传统知识重放检测减少。
       因此,区分真实语音和欺骗语音变得越来越困难。
       为了检测重播语音中隐藏的特征,我们直接将声谱图输入到端到端的 DNN 中,无需基于知识的干预。
       利用互补信息和高分辨率等研究探索进一步促进了数据驱动的方法。
       此外,验证了不同特征的集成使用,包括原始波形和 i 向量,以进一步提高性能。
       提交 ASV2019 挑战的主系统的 t-DCF0.0570EER2.45% ,并在 ASV2019 物理获取挑战评估集上与基线 CQCC-GMMt-DCF0.2454EER11.04% 进行了比较。
       

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
replay-attack数据集是一个广泛使用的用于生物特征识别领域的数据集。该数据集主要用于评估生物特征识别系统对于"replay attacks"(重放攻击)的鲁棒性。 重放攻击是一种常见的生物特征识别系统攻击方法之一,攻击者通过以前录制的生物特征的视频、语音或图像等方式来试图欺骗识别系统。这种攻击模式有着较低的技术门槛,因此需要通过评估和改进生物特征识别系统的鲁棒性来应对这种攻击。 replay-attack数据集包含了多个攻击者模拟重放攻击的视频数据,并结合真实用户的视频数据来构建。数据集中的攻击手段包括使用手机、平板电脑等设备重放以前录制的真实用户视频或图像,以此来欺骗生物特征识别系统。这些视频数据在采集技术、手段和攻击条件等方面都有所不同,以便更全面地评估生物特征识别系统的鲁棒性。 通过使用replay-attack数据集,研究人员能够评估不同的算法和方法对于重放攻击的识别能力,并设计更鲁棒的生物特征识别系统。此数据集可用于训练和测试生物特征识别系统,以提高其对重放攻击的抵抗能力。 总之,replay-attack数据集是一个用于评估生物特征识别系统对重放攻击的鲁棒性的数据集,通过使用该数据集可以提高生物特征识别系统的抵抗能力,并为研究人员提供了一个评估和改进生物特征识别系统的平台。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值