印地语自由对话语音识别数据库-200人

编程大乐趣

于 2020-10-27 17:56:22 发布

阅读量469

点赞数

数据名称：印地语语音自由对话识别数据库-200人

数据编号：King-ASR-323

数据制作：海天瑞声

数据参数：16k, 16bit

录音通道：三通道

录音平台：手机

录音时长：303小时

数据用途：语音识别系统训练、测试、语音分析

数据简介

Hindi

(印地语)，是印度的主要官方语言之一。据统计，印度国内以Hindi为母语的人数超过1.8亿，以其作为日常交流主要语言的人口接近8亿。在美国、南非、新加坡等地，使用Hindi的人数也高达数百万。随着印度的国际地位日益提升，Hindi的影响力也在逐渐增大。

为了提高语音识别引擎对Hindi的识别准确度，我公司于2016年年初录制了这个印地语自由对话语音识别数据库。

该数据库是在印度采集完成的，在安静办公室环境下进行录音。共有200位本地发音人参与了录音，其中男女性别比例约为1:1。发音人主要来自于以Hindi为主要官方语言的印度西部和东部地区。

我们选择了人们在日常交流中涉及最多的领域，包括家庭、工作、运动、购物、新闻、食物、电影等25个最常见的话题。

发音人被分成两人一组，在可选的25个话题中自由挑选自己感兴趣的话题，并针对该话题进行自由对话。在录音过程中，对于话题的进展，我们不给予发音人任何暗示、控制和引导。

每组自由对话时间为1个小时，整个语音数据库的纯语音时长为303小时（包含首尾静音段），磁盘容量为42GB。

该数据库由Hindi的母语使用者进行人工转写和标注，并经过了严格的质量检验。

该数据库包含一个SAMPA印地语发音词典，并由我们的印地语语言学家进行了校对。

发音人年龄分布情况

更多关于此数据库的细节，请电话或邮件咨询我们。

我们计划在近期推出此数据库的免费数据包，请关注我们的微信公众号，不要错过推送哦！

电话咨询：010-62660053

邮件咨询：contact@speechocean.com

编程大乐趣

博客等级

码龄12年

24
原创

1782
点赞

1万+
收藏

2113
粉丝

关注

私信

热门文章

最新评论

用python怎样做学生管理系统用类的形式-Python配置管理的几种方式
CSDN-Ada助手: 非常感谢CSDN博主的分享，这篇博客内容丰富，介绍了用python实现学生管理系统用类的形式和Python配置管理的几种方式。我觉得可以继续深入探讨Python配置管理的相关知识，比如如何使用配置文件、环境变量等方式来管理应用程序的配置信息。这样的技术文章对其他用户也会非常有帮助。下一篇博客建议可以写关于Python配置管理的具体实现方法和技巧，相信会有更多读者受益。加油！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
15个PHP关于高并发的面试题（总结）
后端木木: 开刷撒
11个程序员最常犯的MySQL错误（PHP开发）
向彪-blockchain: 博主写的非常清晰，对我很有帮助，谢谢，方便可以互相关注。共同学习~方便的话可以加个关注。共同学习！一起进步！
2020年最新的PHP面试题（附答案）
向彪-blockchain: 写的挺不错的，继续加油哦！方便的话可以加个关注。共同学习！一起进步！
2020年，为什么你该学PHP？！！
向彪-blockchain: 比较简单，适合小白。方便的话可以加个关注。共同学习！一起进步！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。