N-Gram的数据结构

本文详细介绍了ARPA的n-gram语言模型的数据结构,包括words表示的单词序号、log_bo的回退概率、log_prob的组合概率以及vocab词典指针等关键元素。还提到了entries数组、n_ngrams计数、unk_wrd和unk_id对于处理未知词的重要性,以及words_in_lm用于标记词典中词的使用情况。
摘要由CSDN通过智能技术生成

ARPA的n-gram语法如下:

\data\
ngram 1=64000
ngram 2=522530
ngram 3=173445

\1-grams:
-5.24036        'cause  -0.2084827
-4.675221       'em     -0.221857
-4.989297       'n      -0.05809768
-5.365303       'til    -0.1855581
-2.111539       </s>    0.0
-99     <s>     -0.7736475
-1.128404       <unk>   -0.8049794
-2.271447       a       -0.6163939
-5.174762       a's     -0.03869072
-3.384722       a.      -0.1877073
-5.789208       a.'s    0.0
-6.000091       aachen  0.0
-4.707208       aaron   -0.2046838
-5.580914       aaron's -0.06230035
-5.789208       aarons  -0.07077657
-5.881973       aaronson        -0.2173971
具体说明见 : ARPA的n-gram语言模型格式


整个ARPA-LM由很多个n-gram项组成,分别说明这两个的数据结构


一,n-gram数据结构


n-gram
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值