集成演示攻击检测和自动扬声器验证:常见功能和高斯后端融合

Integrated Presentation Attack Detection and Automatic Speaker Verification: Common Features and Gaussian Back-end Fusion

集成演示攻击检测和自动扬声器验证:常见功能和高斯后端融合

使用第2节中描述的四个前端进行实验,使用预处理和后处理,包括添加对数能量参数,倒谱平均值和变量归一化(CMVN)[17],相对光谱(RASTA)滤波[ 18]和清晰率(ARTE)过滤[10]。 还考虑了高达两倍增量的动态系数。

MFCC和LFCC的配置是标准的:19(S)tatic系数(不包括第0个),具有附加(D)elta的RASTA滤波和(A)加速系数。 ICMC配置在[19]中报告,与MFCC相同。 基于先前用于文本相关ASV [10]和PAD [16]的配置,CQCC包括具有附加D系数的29个S系数,ARTE滤波和对数能量系数。 语音活动检测(SAD)。 本文中报告的任何单个实验都涉及使用完全相同的前端配置的PAD和ASV系统。

4.3.PAD和ASV系统

PAD和ASV分类器都是传统的高斯混合模型(GMM)。 PAD分类器使用512个组件的模型。使用具有随机初始化的期望最大化(EM)算法来学习模型以获得真实和欺骗性语音。给定测试话语的分类器分数被计算为真实语音和欺骗语音的GMM之间的对数似然比。因此,该ASV Clas- sifier使用512个部件的模型和从最大学习说话人特定模型训练RSR2015数据库[20]上的通用背景模型(UBM)的后验概率(MAP)adap-塔季翁。分数是给定目标模型和UBM的对数似然比。

 

4.4.PAD和ASV的整合

关于3.3节中描述的高斯后端融合,我们使用最大似然来获得所有三个类(C1,C2和C3)的均值和协方差。使用开发集上的网格搜索,经验地将α的值设置为0.96。

5.实验结果和讨论

结果显示在表2中,用于关节PAD-ASV方案的发育(D)和进化(E)分区(参见表3)。高斯后端融合(表2的下半部分)结果显示了每个前端和级联组合。线性性能回归(LR)和多项式线性回归(PLR)融合方法[2],因此报道(表2的上半部分)。因此,这些对比方法旨在将2D得分空间分成两类。因此,针对目标试验结合零努力和欺骗性冒名顶针试验以及平均值,分别给出结果。

LFCC,ICMC和CQCC功能的性能略优于MFCC功能。 LFCC具有整体改进和评估子集,为每种组合方法提供13%和10%EER的最佳平均(零努力和欺骗冒名顶替者)结果。结合ASV和PAD以在腐败检测方面提供更好的性能。这可能是由于使用了单一功能,避免了冗余处理并模拟了ASV-PAD的组合。

这些相同的结果还表明,本文提出的高斯后端融合方法优于级联/串联组合以及LR和PLR方法。性能的提升归功于单一,灵活和联合优化,而不是独立优化的刚性阈值。前者提供更好的拒绝欺骗性试验的能力,对目标试验的拒绝影响较小。本文报道的高斯后端融合方法为欺骗提供了更好的鲁棒性和更好的可用性。对于其他两种方法,LR和PLR融合方法的结果在全球范围内更差。此外,它们在开发和评估集方面表现出类似的性能,但缺乏概括性。

最后,图2显示了用于开发和评估集的LFCC特征的2D得分空间表示。通过分析数据分布,很明显不能使用具有刚性阈值的方法做出决策。

使用ASVspoof 2017 v2.0数据库评估性能。组合系统时,ASV或PAD任务不能提供最佳性能。 ASV和PAD组合的级联方法,以及逻辑和多项式逻辑回归方法,在已知非目标试验的性质的情况下提高了可靠性。当面对未知或以前看不见的非目标试验和欺骗攻击时,性能会显着下降;这些ASV和PAD组合方法无法发挥作用。相比之下,高斯后端集成方法显示为一般化,并为独立评估集提供最低的错误率。

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值