OGI Multilanguage Corpus数据集介绍,官网编号LDC94S17

OGI Multilanguage Corpus收录了来自英语、波斯语(又称波斯文)、法语、德语、印地语、日语、韩语、普通话、西班牙语、泰米尔语和越南语等多种语言使用者的电话回应。这些回应是通过商业电话线路收集的,总计包含1,927次通话,平均每种语言约175次通话。

数据的采集过程采用了自动系统,该系统会自动接听电话,播放相应语言的数字化提示来请求语音样本,并在特定的时间段内对通话者的回应进行数字化记录。

除了语音数据外,该语料库还包含了日志文件,这些文件提供了对每个发音的一系列自动测量数据。特别的是,部分发音还经过了自动处理,被分割成更为宽泛的音位类别。语音数据以压缩形式存储,并附有NIST SPHERE标准头部信息,以便后续的分析和研究。

 获取方法:

方法1:注册LDC账号并加入组织获取数据,官网链接:LDC官网

方法2:关注公众号,回复OGI Multilanguage CorpusLDC语料小助手icon-default.png?t=N7T8https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg

  • 9
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值