ARPA(高级研究计划局,现在称为DARPA,即国防高级研究计划局)连续语音识别(CSR)基准测试是一系列旨在评估连续语音识别技术进步的评价。这些基准测试提供了标准化的数据集和评估指标,以便比较不同的研究方法。
以下是ARPA CSR评估的简要概述:
- ARPA CSR-I(1971-1976):这是第一个系列的评估,重点是孤立词的识别。
- ARPA CSR-II(1976-1983):这个系列转向连续语音识别,重点是句子识别。它引入了华尔街日报(WSJ)数据集,该数据集成为了语音识别研究的一个标准基准。
- ARPA CSR-III(1988-1993):这个系列继续评估连续语音识别,专注于更大的词汇量和更复杂的任务。它引入了新的数据集,如Switchboard对话电话语音语料库。
获取方法:
方法1:注册LDC账号并加入组织获取数据,官网链接:LDC官网
方法2:关注公众号,回复CSR-III TextLDC语料小助手https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg