语音库的分析与评价

语音库的分析与评价

影响因素分析

说话人识别(声纹识别)语音库的分析与评价,一般依据以下四个因素:

1、说话人的数量和差异性
2、说话人录音的次数及录音间隔
3、语料的类型(固定的短语、带提示信息的数字、朗读句子、对话语音)
4、录音设备,录制环境,传输信道

影响因素选项
人数
录音方式多次重复录音、转录语音、录音回放语音
采集设备宽带(麦克风)、窄带(电话、手机)、单/双通道、立体声
录音环境室内、室外、安静、嘈杂
距离近场识别 、远场识别
语速快、适中、慢、时快时慢
音量大、小、时大时小
音色男声、女声、童声
录音内容数字串(普通话、英语、方言)、固定短文(普通话:60个音素和韵律分布平稳)、自由发言
口音分布不同省市、自治区

一些结论:

  • 相对于宽带语音数据,窄带语音数据的识别效果大幅降低;
  • 不同的文本和语言风格对识别性能也有很大影响;

  • 在这里插入图片描述

目标

说话人识别(声纹识别)的研究核心是解决训练集和测试集之间的失配(会话变异)问题,导致训练集和测试集之间差异的主要因素可以分为两大类

  • 说话人差异:如声道差异、发音特点、说话人风格等,这是对声纹识别有用的部分——需要加以利用
  • 会话间差异:如不同的采集设备、传输媒介等,这种失配严重影响声纹识别的性能——需要剔除

一个理想的声纹识别系统,应该在去失配信息的同时尽量完整地保留说话人的本质特征

在过去的十几年间涌现出了很多优秀的失配补偿算法,根据它们的作用域可分为三大类:特征域分数域模型域

语音质量评价

待看:

  1. 语音质量评价方法-【音频质量专题】

  2. 语音质量评估

  3. POLQA

参考:

  1. 面向移动互联环境的说话人识别语音库SRMC
  2. 录音回放说话人身份认证语音数据库
  3. 语音识别、声纹识别的区别及测试
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
This corpus contains a selection from the TIMIT Acoustic-Phonetic Continuous Speech Corpus, consisting of speech files, annotations,and associated materials: * 16 speakers from 8 dialect regions * 1 male and 1 female from each dialect region * total 130 sentences (10 sentences per speaker; note that some sentences are shared among other speakers, sa1 and sa2 are spoken by all speakers.) * total 160 sentence recordings (10 recordings per speaker) * audio format: wav format, single channel, 16kHz sampling, 16 bit sample, PCM encoding 数据相关论文: 使用该数据的论文: 暂无信息 来自万方数据的相关论文: 期刊论文 基于学习者英语语料的类联接研究概念、方法及例析 - 外语电化教学 - 2009(3) 期刊论文 基于HTK的连续语音识别系统及其在TIMIT上的实验 - 现代计算机(专业版) - 2009(11) 会议论文 Iterative Language Model Adaptation for Large Vocabulary Continuous Speech Recognition - 2011 4th IEEE International Conference on Computer Science and Information Technology(ICCSIT 2011)(2011年第四届IEEE计算机科学与信息技术国际会议) - 2011 会议论文 The Fixed-Point Optimization of Mel Frequency Cepstrum Coefficients for Speech Recognition - The 6th International Forum on Strategic Technology(IFOST 2011)(第六届国际战略技术论坛) - 2011 会议论文 语音编码对说话人识别系统的影响 - 第二届和谐人机环境联合(第15届全国多媒体技术、第2届全国人机交互、第2届全国普适计算)学术会议 - 2006 期刊论文 车载环境下基于样本熵的语音端点检测方法 - 计算机研究与发展 - 2011, 48(3) 会议论文 A Corpus-based Comparative Study of Company Profiles --A Case Study Between World Top-500 and Zhejiang Top-100 - 2010 Summit International Marketing Science and Management Technology Conference(2010年国际营销科学与管理技术大会) - 2010 期刊论文 留学生汉语中介语语料建设若干问题探讨——以中山大学汉字偏误中介语语料为例 - 语言文字应用 - 2012(2) 会议论文 A NON-FIXED-LENGTH SEQUENCES CLUSTERING APPROACH FOR SPEECH CORPUS REDUCTION - 2007 International Conference on Machine Learning and Cybernetics(IEEE第六届机器学习与控制论国际会议) - 2007 期刊论文 联想学习记忆的脑功能磁共振成像 - 中华神经科杂志 - 2008, 41(4)

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值