sunpinyin n-gram数据二进制和utf8格式的转换

1.

【目标】:将二进制的模型数据lm_sc.t3g转换成 utf8格式 lm_sc.t3g.arpa

【操作】:

./tslminfo -p -v -l  ../raw/dict.utf8 ../data/lm_sc.t3g >../raw/lm_sc.t3g.arpa

【解释】:

-p : 使用正常的频率值Pr, 非默认的-log(Pr)

-v : 输出apra格式

-l : 指定utf8格式的字典文件

../raw/dict.utf8 : utf8格式的字典文件

../data/lm_sc.t3g : 需要转换的二进制模型数据

../raw/lm_sc.t3g.apra : 输出utf8格式的模型数据


2.

【目标】: 将utf8格式的模型数据转换为二进制的模型数据

[操作] : tslmpack <arpa_file> <lexicon_file> <t3g_file>

./tslmpack ../raw/lm_sc.t3g.arpa ../raw/dict.utf8 lm_sc.t3g


3. 如果数据模型文件是2-gram不是默认的3-gram,如果执行2的命令会报错 “Failed to read from”

【解决方案】:

1) 修改类 CArpaSlm和tslmpack程序以支持2-gram。具体代码如下

diff --git a/src/slm/tslmpack/arpa_slm.cpp b/src/slm/tslmpack/arpa_slm.cpp
old mode 100644
new mode 100755
index 82029c6..5bb24
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值