语音库的分析与评价

语音库的分析与评价

影响因素分析

说话人识别(声纹识别)语音库的分析与评价,一般依据以下四个因素:

1、说话人的数量和差异性
2、说话人录音的次数及录音间隔
3、语料的类型(固定的短语、带提示信息的数字、朗读句子、对话语音)
4、录音设备,录制环境,传输信道

影响因素选项
人数
录音方式多次重复录音、转录语音、录音回放语音
采集设备宽带(麦克风)、窄带(电话、手机)、单/双通道、立体声
录音环境室内、室外、安静、嘈杂
距离近场识别 、远场识别
语速快、适中、慢、时快时慢
音量大、小、时大时小
音色男声、女声、童声
录音内容数字串(普通话、英语、方言)、固定短文(普通话:60个音素和韵律分布平稳)、自由发言
口音分布不同省市、自治区

一些结论:

  • 相对于宽带语音数据,窄带语音数据的识别效果大幅降低;
  • 不同的文本和语言风格对识别性能也有很大影响;

  • 在这里插入图片描述

目标

说话人识别(声纹识别)的研究核心是解决训练集和测试集之间的失配(会话变异)问题,导致训练集和测试集之间差异的主要因素可以分为两大类

  • 说话人差异:如声道差异、发音特点、说话人风格等,这是对声纹识别有用的部分——需要加以利用
  • 会话间差异:如不同的采集设备、传输媒介等,这种失配严重影响声纹识别的性能——需要剔除

一个理想的声纹识别系统,应该在去失配信息的同时尽量完整地保留说话人的本质特征

在过去的十几年间涌现出了很多优秀的失配补偿算法,根据它们的作用域可分为三大类:特征域分数域模型域

语音质量评价

待看:

  1. 语音质量评价方法-【音频质量专题】

  2. 语音质量评估

  3. POLQA

参考:

  1. 面向移动互联环境的说话人识别语音库SRMC
  2. 录音回放说话人身份认证语音数据库
  3. 语音识别、声纹识别的区别及测试
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值