1996 CSR HUB4 Language Model数据集介绍,官网编号LDC98T31

在语音识别(ASR)领域,当提到“Language Model”(语言模型)时,我们指的是一种概率模型,用于估计给定上下文中一系列词出现的概率。在1996年的DARPA(Defense Advanced Research Projects Agency)的CSR(Conversational Speech Recognition)项目中,HUB4子集可能使用了特定的语言模型来优化ASR系统的性能。

在构建语言模型时,通常会使用大量的文本数据来训练。这些文本数据可以来自多种来源,如新闻文章、书籍、网页等。对于HUB4这样的广播新闻数据集,语言模型可能会使用与新闻相关的文本数据进行训练,以更好地捕捉新闻报道中的词汇和语法结构。

语言模型在ASR中的作用是提供关于词汇序列的先验概率信息。在语音识别过程中,ASR系统会生成多个可能的词汇序列(候选),然后利用语言模型对这些候选进行打分,选择概率最高的序列作为最终的识别结果。

在1996年的技术背景下,语言模型可能采用了基于统计的方法,如n-gram模型(n元模型)。n-gram模型是一种简单的概率模型,它根据前面n-1个词的出现情况来预测下一个词的出现概率。例如,二元模型(bigram)基于前一个词来预测下一个词,而三元模型(trigram)则基于前两个词来预测下一个词。

 获取方法:

方法1:注册LDC账号并加入组织获取数据,官网链接:LDC官网

方法2:关注公众号,回复LDC98T31LDC语料小助手icon-default.png?t=N7T8https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg

  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值