srilm的使用，参考别处，此为记录，方便日后查询

最新推荐文章于 2022-01-12 16:32:12 发布

少游223

最新推荐文章于 2022-01-12 16:32:12 发布

阅读量306

点赞数 1

分类专栏： python c++

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shaoyou223/article/details/89150306

版权

python 同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

使用：

由于计算机内存的限制，将处理的文件分为小文件和大文件两种：

小文件：

词频统计：

ngram-count -text train.txt -order 3 -write train.count

模型训练：

ngram-count -read train.txt.count -order 3 -lm train.lm -interpolate -kndiscount

-read指向输入文件，为上一步的输出文件

-order与上同

-lm指向训练好的语言模型输出文件

最后两个参数为所采用的平滑方法，-interpolate为插值平滑，-kndiscount为 modified Kneser-Ney 打折法，这两个是联合使用的

计算困惑度：

ngram -ppl test.txt -order 3 -lm LM > result

-ppl为对测试集句子进行评分(logP(T)，其中P(T)为所有句子的概率乘积）和计算测试集困惑度的参数

result为输出结果文件

其他参数同上。

大文件：

切分：

split -l line_num_of_file inputfile outputfiledir /outputfie_prefix

例：split -l 10000 train.txt filedir/

具体split的使用方法可以自己查询。

单个文件词频统计：

make-batch-counts file-list 1 cat counts -order 3 -sort

file-list是个文件名，这个文件存储了你分割大文件而得到的小文件的文件名；5的意识是每5个小文件用于一次ngram-count训练，获得对应的count文件；cat 是用于过滤输出的脚本名，我们这里直接输出；后面的是传给ngram-count的参数，可以自己根据需要写。

合并结果：

merge-batch-counts [ -l N ] counts [ filename-list ]

例：merge-batch-counts ./counts

将counts目录下的所有文件合并成一个文件，如果有些文件不用参与合并，可以在最后添加一个filename-list，只有在filename-list里面出现的文件才会被用于合并；-l N参数之处，一次同时合并N个文件。

训练语言模型：

make-big-lm -read ../counts/*.ngrams.gz -lm ../split.lm -order 3

用法同ngram-count

计算困惑度：

ngram -ppl filepath.txt -order 3 -lm split.lm -debug 2 > file.ppl

备注：

语料必须是分好的词，即用空格隔开，英文的书写都是用空格隔开的，但中文的书写各个字词之间并未空格，因此需要使用分词工具将文本自动分词，中文自动分词也是技术活，属于NLP范畴，常用的分词工具有：jieba、SnowNLP、pynlpir，thulac等，可以自己下载使用。

原文：https://blog.csdn.net/nsh119/article/details/81171208

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
srilm的使用，参考别处，此为记录，方便日后查询

使用：由于计算机内存的限制，将处理的文件分为小文件和大文件两种：小文件：词频统计：ngram-count -text train.txt -order 3 -write train.count模型训练：ngram-count -read train.txt.count -order 3 -lm train.lm -interpolate -kndiscount-r...
复制链接

扫一扫

专栏目录

少游223 CSDN认证博客专家 CSDN认证企业博客

码龄7年

93: 原创

7万+: 周排名

44万+: 总排名

27万+: 访问

: 等级

3235: 积分

147: 粉丝

69: 获赞

71: 评论

204: 收藏

私信

关注

热门文章

分类专栏

wenet 5篇
语音识别 5篇
kaldi 3篇
c
机器学习 25篇
mnist 1篇
人工智能 26篇
kaggle 2篇
数据挖掘 14篇
赛码 2篇
pysptk 1篇
安装失败 2篇
数据库 1篇
MYSQL 1篇
autoware 4篇
sprocket 1篇
深度学习 7篇
语音转换 1篇
python 14篇
ubuntu 11篇
算法 6篇
opencv 1篇
c++ 3篇
sh 2篇
系统 7篇
编译 1篇
gi
jupyte 1篇
服务 1篇
x

最新评论

python3中无法import cv2，importError: /opt/ros/kinetic/lib/python2.7/dist-packages/cv2.so
新一代图书管理员の养成笔记: 所以概括就是通过强行sys.path.remove python2.7的库，来逼迫import cv2 搜索py3的库吧
计算mcd值
weixin_43065256: 楼主您好，请问您在最后计算overall mcd 的时候有没有出现这个错误呢Traceback (most recent call last): File "bin/dtw_synth", line 131, in <module> main(sys.argv) File "bin/dtw_synth", line 121, in main synthFullWarped = dtw.warpGeneral(synthFull, synthIndexSeq) File "/usr/local/lib/python2.7/dist-packages/mcd/dtw.py", line 163, in warpGeneral ysWarped = ys[yIndexSeq] IndexError: index 843 is out of bounds for axis 0 with size 843 如果有的话，应该怎么解决呢。我大概看了一下，好像是因为读取的时候ys长度变短了
编译文件时，mkdir build的位置选择
少游223: cmake .. #关键在..上
利用kNN算法对iris数据集进行分类，本人也做了修改使得代码可实现
陈序袁: 请问下如果数据集中样本的特征值个数是4的话应该如何修改呢？
module 'h5py' has no attribute 'File' 解决办法
qq_41861755: AttributeError: module 'h5py' has no attribute 'Dataset'怎么解决

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。