数据名称:印地语语音自由对话识别数据库-200人
数据编号:King-ASR-323
数据制作:海天瑞声
数据参数:16k, 16bit
录音通道:三通道
录音平台:手机
录音时长:303小时
数据用途:语音识别系统训练、测试、语音分析
数据简介
Hindi
(印地语),是印度的主要官方语言之一。据统计,印度国内以Hindi为母语的人数超过1.8亿,以其作为日常交流主要语言的人口接近8亿。在美国、南非、新加坡等地,使用Hindi的人数也高达数百万。随着印度的国际地位日益提升,Hindi的影响力也在逐渐增大。
为了提高语音识别引擎对Hindi的识别准确度,我公司于2016年年初录制了这个印地语自由对话语音识别数据库。
该数据库是在印度采集完成的,在安静办公室环境下进行录音。共有200位本地发音人参与了录音,其中男女性别比例约为1:1。发音人主要来自于以Hindi为主要官方语言的印度西部和东部地区。
我们选择了人们在日常交流中涉及最多的领域,包括家庭、工作、运动、购物、新闻、食物、电影等25个最常见的话题。
发音人被分成两人一组,在可选的25个话题中自由挑选自己感兴趣的话题,并针对该话题进行自由对话。在录音过程中,对于话题的进展,我们不给予发音人任何暗示、控制和引导。
每组自由对话时间为1个小时,整个语音数据库的纯语音时长为303小时(包含首尾静音段),磁盘容量为42GB。
该数据库由Hindi的母语使用者进行人工转写和标注,并经过了严格的质量检验。
该数据库包含一个SAMPA印地语发音词典,并由我们的印地语语言学家进行了校对。
发音人年龄分布情况
更多关于此数据库的细节,请电话或邮件咨询我们。
我们计划在近期推出此数据库的免费数据包,请关注我们的微信公众号,不要错过推送哦!
电话咨询:010-62660053
邮件咨询:contact@speechocean.com