AISHELL Speaker Verification Challenge 2019 希尔贝壳声纹识别大赛的总结

官方的线下交流材料见公众号https://mp.weixin.qq.com/s/bswlrv_ixG-lsAHUKaCfSA

 

比赛简介:

赛事数据来自希尔贝壳的AISHELL-WakeUp-1唤醒数据库。录音内容为“你好,米雅” “hi, mia”的唤醒词。340名录音人在真实家居环境中录制,设置7个录音位,包括6个圆形16路PDM麦克风阵列录音板做远场拾音(16kHz,16bit)、1个高保真麦克风用做近场拾音(44.1kHz,16bit)。

The setup of the AISHELL-WakeUp-1 database

本赛事数据为抽取AISHELL-WakeUp-1的高保真近讲Mic、1m、3m、5m的中文内容“你好,米雅”数据,其中训练集(254人)、开发集(42人)和测试集(44人)。数据详细信息可参考 AISHELL-WakeUp-1.pdf。Download

任务

多通道远场文本相关声纹识别:

Track1:近场数据注册,远场数据测试

即用高保真近讲Mic作为注册语音,将1m, 3m, 5m的阵列语音作为测试语音。

Track2:远场数据注册,远场数据测试

即用距离说话人1m的阵列语音作为注册语音,将1m, 3m, 5m的阵列语音作为测试语音。

 

比赛结果:第一名是小米智能科技。

看看第一名的小米团队做了哪些优化:

首先是数据处理,经过测试,任务一效果不好。将近场的麦克风采样率从44K降低为16K,识别效果变好。

然后还需要扩充训练数据集,比赛提供的训练数据集一共99万条语音,经过加躁等处理后,变成了200万条语音。

默认的VAD效果不好,自己重新训练一个kw-vad。

经过训练集扩充之后的错误率一直在下降。

物理设备非常豪华。

 

模型是3个模型,而不是一个模型。

 

最后打分的结果是将3个模型的结果加权。

脚本可以参考kaldi的sre16等。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值