HUB4是 DARPA (Defense Advanced Research Projects Agency) 发起的一个语音识别项目的一部分,旨在推进语音识别技术的发展。具体来说,HUB4
是该项目中使用的一个子集,包含了从 1996 年的广播新闻中收集的大量语音数据。这些数据通常用于训练和评估自动语音识别(ASR)系统。
HUB4
数据集通常包括语音录音的转录(即文字版),这些转录是手动生成的,以匹配录音中的语音内容。这些转录对于训练 ASR 系统至关重要,因为它们提供了语音到文本的对应关系。
获取方法:
方法1:注册LDC账号并加入组织获取数据,官网链接:LDC官网
方法2:关注公众号,回复HUB4LDC语料小助手https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg