关于联合唤醒词检测和文本相关说话人验证的卷积LSTM建模

On Convolutional LSTM Modeling for Joint Wake-Word Detection and Text Dependent Speaker Verification

业务,公司,政府,百万,早晨,十九和一千个被选中,并且形成了包含所考虑的每个关键词的记录的子数据集。每个子数据集的规格列于表中。这里,提到的说话人验证任务的测试数据是注册和测试话语的组合,是一个保持不变的集合。从这个保留的测试数据集中随机选择每个发言者的注册话语。对于关键字定位唤醒任务,在评估期间也会将没有关键字的句子添加到测试数据中(以准确地测量误报率)。但是,表1中列出的列车数据在所有实验中都保持不变。对于TDSV,仅从列车数据中挑选关键字的语音段,而考虑整个数据集用于KWS。

4.2.Training

我们使用固定批量大小128和随机梯度下降与动量算法进行优化任务。 具有指数衰减[23]的粗体驾驶员学习速率参数的方法按以下方式进行调整 - 如果验证集上的精度在一个纪元后减小,则恢复上一纪元的权重和学习速率 减半。 即使在降低学习率三次之后,如果准确度没有提高,训练过程也会停止。 所有实验的初始学习率保持在0.02。 使用交叉熵作为损失函数。

在多任务网络中,共享层中的梯度如下所示,

5.Results

为了完整起见,本文还实现了基于i矢量的TDSV。使用512混合组件GMM-UBM导出i向量特征。接下来是维数减少到256维的总变量矩阵模型。

请注意,为了进行公平比较,所有模型都设计有大致相似的参数。在多个分支中,每个分支具有与其各自基线相同的参数。表2中报告了TDSV的各种NN架构的结果。在用于说话者验证的神经网络架构中,前馈和重复架构表现最差。卷积神经网络模型[15]在捕获说话人特定功能方面最为有效。虽然独立的CLSTM模型表现不佳,但共享较低级别的语音功能已证明是有益的,并且性能优于CNN模型。表格最后一栏中显示的i-vector模型进一步改进了神经网络架构。这也验证了先前使用相同的线条进行的观察,将神经网络架构与用于少量训练数据的i向量模型进行比较[9]。

在KWS唤醒字检测的情况下,循环架构显示出对前馈模型的显着改进。 CLSTM模型在所考虑的各种NN模型中提供最佳的KWS精度。与基于LSTM框架的先前模型相比,所提出的CLSTM模型实现了30%的平均相对改进[17]。与说话人验证模型的结果相反,MTL框架并未改进CLSTM架构。这可能归因于这样的事实:保留说话者信息可能正在稀释KWS任务的目标,该目标试图导出关键字而不管目标说话者。

综上所述,

•循环LSTM架构最适合语音和字分类,而卷积架构适用于扬声器和语音功能。

•卷积前端功能图与逆流架构相结合,适合学习共享功能(扬声器和语音)。

•MTL框架与CLSTM模型相结合,为语音信息的知识提供了显着的益处,其中语音信息的知识有助于说话者聚类。但是,MTL中的发言者信息对KWS任务没有好处。

•使用少量扬声器训练数据的神经网络方法的性能不如TDSV任务中的i-向量特征。

六,结论

最后,我们研究了各种用于文本相关的说话者验证和关键词识别的神经网络架构,并提出了一个具有卷积前端的多任务架构。 我们还演示了为说话人验证任务学习语音和说话人特征的共享特征表示的有效性。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值