语音库的分析与评价
影响因素分析
说话人识别(声纹识别)语音库的分析与评价,一般依据以下四个因素:
1、说话人的数量和差异性
2、说话人录音的次数及录音间隔
3、语料的类型(固定的短语、带提示信息的数字、朗读句子、对话语音)
4、录音设备,录制环境,传输信道
影响因素 | 选项 |
---|---|
人数 | |
录音方式 | 多次重复录音、转录语音、录音回放语音 |
采集设备 | 宽带(麦克风)、窄带(电话、手机)、单/双通道、立体声 |
录音环境 | 室内、室外、安静、嘈杂 |
距离 | 近场识别 、远场识别 |
语速 | 快、适中、慢、时快时慢 |
音量 | 大、小、时大时小 |
音色 | 男声、女声、童声 |
录音内容 | 数字串(普通话、英语、方言)、固定短文(普通话:60个音素和韵律分布平稳)、自由发言 |
口音分布 | 不同省市、自治区 |
一些结论:
- 相对于宽带语音数据,窄带语音数据的识别效果大幅降低;
- 不同的文本和语言风格对识别性能也有很大影响;
- …
目标
说话人识别(声纹识别)的研究核心是解决训练集和测试集之间的失配(会话变异)问题,导致训练集和测试集之间差异的主要因素可以分为两大类:
- 说话人差异:如声道差异、发音特点、说话人风格等,这是对声纹识别有用的部分——需要加以利用
- 会话间差异:如不同的采集设备、传输媒介等,这种失配严重影响声纹识别的性能——需要剔除
一个理想的声纹识别系统,应该在去失配信息的同时尽量完整地保留说话人的本质特征。
在过去的十几年间涌现出了很多优秀的失配补偿算法,根据它们的作用域可分为三大类:特征域,分数域和模型域。
语音质量评价
待看:
参考:
- 面向移动互联环境的说话人识别语音库SRMC
- 录音回放说话人身份认证语音数据库
- 语音识别、声纹识别的区别及测试