CN-Celeb 无约束条件说话人识别的中文语音数据集

CN-Celeb 无约束条件说话人识别的中文语音数据集

数据源:http://www.openslr.org/82/

项目源:http://cslt.riit.tsinghua.edu.cn/mediawiki/index.php/CN-Celeb

文献:Fan Y, Kang J, Li L et al. CN-CELEB: a challenging Chinese speaker recognition dataset. arXiv preprint arXiv:1911.01799, 2019.

摘要

目的:研究无约束条件下的自动说话人识别,换句话说,speaker recognition in the wild。
数据与方法:建立了CN-Celeb数据集,该数据集包含130,000条语音段,1000位中国名人,11种语音体裁,短时语音段,共计274小时。CN-Celeb在i-vector/PLDA与x-vector/PLDA进行评测,并与VoxCeleb数据对比。
结果:在i-vector/PLDA与x-vector/PLDA两个算法上,CN-Celeb上EER高于10%,VoxCeleb上EER低于10%。
结论:CN-Celeb数据与VoxCeleb数据的区别显著;对于现阶段的说话人识别算法来说,CN-Celeb数据集更具挑战。

1. 引言

数十年的研究极大地提升了说话人识别系统的性能,然而无约束条件的说话人识别仍然难以达到可靠的水平。不确定的因素主要来自两方面,一是外在因素,二是内在因素,具体地,文本无关、多信道、环境噪声、说话人风格、生理健康状态。

传统的因子分析方法与概率线性可区分性分析、最新的深度学习方法在受约束数据集上的说话人识别性能表现良好,然而这些数据集没有充分体现出丰富的声学条件,例如DARPA、SWITCHBOARD、NIST SRE与Voxceleb。

研究无约束条件的说话人识别问题,“In The Wild”数据集是重要的基础。基于VoxCeleb数据集提供的自动化数据采集流程,清华大学收集了一份大规模的中文语音数据集CN-Celeb,该数据集有3个特点:

  • CN-Celeb专注中国名人,包含130,000+语音段,来自1000位。
  • CN-Celeb包含11种语音体裁,例如娱乐,访问,唱歌,戏剧,电影,视频博客,现场直播,演讲,戏剧,朗诵和广告,相比较VoxCeleb只是访问的语音,更具有无约束条件的代表性。
  • CN-Celeb涉及人工检测,语音段的准确性更高。

2. CN-Celeb 数据集

CN-Celeb数据集具有三个特性:专注中国人、复杂的体裁、质量保证。数据统计结果如下:

表1. 语音体裁分布
体裁说话人数量语音段数量小时数
娱乐48322,06433.67
访问78059,317135.77
唱歌31812,55128.83
戏剧694,2454.95
电影622,7492.20
视频博客411,8944.15
现场直播1298,74716.35
演讲1228,40136.22
戏剧1607,2746.43
朗诵412,7474.98
广告171200.18
共计1,000130,109273.73
表2. 语音段长度的分布
长度(秒)语音段数量占比
<241,65832.0%
2-538,62930.0%
5-1023,49718.0%
10-1510,6878.0%
15-205,3344.0%
20-253,2182.5%
25-301,9911.5%
>305,0954%

CN-Celeb与VoxCeleb数据统计的对比结果如下表所示,两者的差别如下:

  • 更多的真实噪声,例如环境噪声、背景babbing、音乐、欢呼声与小声;
  • 强的、覆盖说话人的背景,特别是戏剧与电影场景;
  • 多数说话人有不同的说话流派,使得说话风格差异显著;
  • 不同时间与不同设备记录的语音;
  • 多数语音是短时的。
表3. CN-Celeb与VoxCeleb的比较
CN-CelebVocCeleb
数据源bilibili.comyoutube.com
语言中文英语为主
体裁11访问为主
人数1,0007,363
语音数130,1091,281,762
小时数2742,794
人工检查

论文提及了获取数据的步骤,是一种两阶段的方式:

  1. 自动提取分段,

  2. 人工筛选有效分段,其中人工删选的效率为 1 小时内检查 1 小时的语音。

备注:个人知识水平有些,对自动提取部分的人脸检测、追踪、语音对齐等技术不熟悉,故不做介绍。

3. 说话人识别的实验

实验涉及的数据、方法及其设定如下:

  • 数据:
    • 评测集:SITW,来自VoxCeleb1;CN-Celeb(E),共200人。
    • 训练集:VoxCeleb,由VoxCeleb1与VoxCeleb2组成,除去SITW部分,1,236,567段语音;CN-Celeb(T),共800人。
    • 挑选的评测集:SITW(S),将SITW重新分段,使其时长与CN-Celeb(E)相似。
    • 挑选的训练集:VoxCeleb(L),来自VoxCeleb,800人,与CN-Celeb(T)人数上相同。
  • 方法及其设定:
    • i-vector:MFCC + CMN + VAD + UBM + i-vector + LDA + PLDA
    • x-vector:TDNN + LDA + PLDA
    • 前端模型:i-vector与x-vector
    • 后端模型:LDA与PLDA

实验结果分为两部分:

  1. 基准实验结果,i-vector与x-vector学习VoxCeleb数据集之后,在SITW、SITW(S)、CN-Celeb(E)上的性能评估,见表4所示。
  2. 不同训练数据的评估结果,当训练集为VoxCeleb、VoxCeleb(L)或CN-Celeb(T),在SITW(S)、CN-Celeb(E)上的性能评估,见表5所示。
表4. i-vector与x-vector在三个评测数据集上的EER
训练集评测集
系统前端后端SITWSITW(S)CN-Celeb(E)
i-vectorVoxCelebVoxCeleb5.307.3019.05
x-vectorVoxCelebVoxCeleb3.754.7815.52
表5. 不同数据设定的EER
训练集评测集
系统前端后端SITW(S)CN-Celeb(E)
i-vectorVoxCelebVoxCeleb(L)8.3417.43
CN-Celeb(T)CN-Celeb(T)14.8714.24
VoxCelebCN-Celeb(T)12.9615.00
CN-Celeb(T)VoxCeleb(L)11.3415.50
x-vectorVoxCelebVoxCeleb(L)5.9313.64
CN-Celeb(T)CN-Celeb(T)15.2314.78
VoxCelebCN-Celeb(T)10.7211.99
CN-Celeb(T)VoxCeleb(L)12.6815.62

作者:王瑞 同济大学 计算机系博士研究生

邮箱:rwang@tongji.edu.cn

CSDN:https://blog.csdn.net/i_love_home

Github:https://github.com/mechanicalsea

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值