1999 HUB4 Broadcast News Evaluation English Test Material 是用于评估自动语音识别(ASR)系统性能的一组特定数据集。HUB4(Human and Machine Understanding of Broadcast News)是一个专注于广播新闻中语音识别、自然语言处理和多媒体信息检索研究的长期项目。
1999年的HUB4广播新闻评估集包含了一系列录制的英语广播新闻片段,这些片段已经过人工转录并带有相应的文本标签。这些数据集用于评估ASR系统在转录广播新闻音频方面的准确性。
评估的主要指标是词错误率(Word Error Rate, WER),这是一个衡量ASR系统转录结果与人工转录文本之间差异程度的常用指标。WER越低,表示ASR系统的性能越好。
获取方法:
方法1:注册LDC账号并加入组织获取数据,官网链接:LDC官网
方法2:关注公众号,回复1999 HUB4 Broadcast News Evaluation English Test MaterialLDC语料小助手https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg