OGI Multilanguage Corpus收录了来自英语、波斯语(又称波斯文)、法语、德语、印地语、日语、韩语、普通话、西班牙语、泰米尔语和越南语等多种语言使用者的电话回应。这些回应是通过商业电话线路收集的,总计包含1,927次通话,平均每种语言约175次通话。
数据的采集过程采用了自动系统,该系统会自动接听电话,播放相应语言的数字化提示来请求语音样本,并在特定的时间段内对通话者的回应进行数字化记录。
除了语音数据外,该语料库还包含了日志文件,这些文件提供了对每个发音的一系列自动测量数据。特别的是,部分发音还经过了自动处理,被分割成更为宽泛的音位类别。语音数据以压缩形式存储,并附有NIST SPHERE标准头部信息,以便后续的分析和研究。
获取方法:
方法1:注册LDC账号并加入组织获取数据,官网链接:LDC官网
方法2:关注公众号,回复OGI Multilanguage CorpusLDC语料小助手https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg