1997 English Broadcast News Transcripts (HUB4) 是指 1997 年收集的一系列英语广播新闻节目的转录文本。这些转录文本通常与相应的音频数据一起使用,用于训练、开发和评估自动语音识别(ASR)系统。
HUB4 是 DARPA(Defense Advanced Research Projects Agency)资助的语音识别项目中的一个子集,旨在推动语音识别技术的进步。这个项目提供了大量的真实世界数据,包括从广播新闻、电话对话和会议等不同来源收集的音频和转录文本。
对于 1997 年 English Broadcast News Transcripts (HUB4),这些数据可能包括各种主题的新闻报道,如政治、经济、社会事件等。转录文本通常经过人工校对,以确保其准确性,这对于训练高质量的语音识别系统至关重要。
获取方法:
方法1:注册LDC账号并加入组织获取数据,官网链接:LDC官网
方法2:关注公众号,回复1997 English Broadcast News Transcripts (HUB4) LDC语料小助手https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg