srilm建立语言模型

最新推荐文章于 2020-11-06 15:35:24 发布

jinmingz

最新推荐文章于 2020-11-06 15:35:24 发布

阅读量3.6k

点赞数 1

分类专栏： ASR 文章标签： srilm 语言模型

本文链接：https://blog.csdn.net/zjm750617105/article/details/52056621

版权

reference:

http://blog.csdn.net/zhoubl668/article/details/8365716

测试数据可以从这个网站下载： http://www.statmt.org/europarl/ ，我测试下载的是 parallel corpus Bulgarian-English.

1.生成n-gram计数文件

./ngram-count -text ./test/europarl-v7.bg-en.en -order 3 -write ./test/europarl-v7.bg-en.en.counts

note: -text 表示输入的文件，就是我们的所有语音对应的文本文件，最好是提前做一个数据清理（把标点符号去掉，全都转化为大写或者小写）

－order 表示生成的是n－gram模型，词的长度最大是3

－write 写入一个计数文件

下面是生成的counts文件中的几行：

Uncooperative   1  ＃表示该词在文件中出现了一次
Uncooperative countries 1   <span style="font-family: Menlo;">＃表示该词在文件中出现了一次</span>
Uncooperative countries of      1
propagate       6   ࿰

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

jinmingz

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

【srilm语言模型训练】基于srilm的语言模型训练

baidu_38903149的博客

04-23

1072

准备 srilm是一个语言模型训练工具，在训练模型之前需要对文本数据进行处理，得到分好词的文本数据。分好词的文本数据大概是下图这样。关于srilm的安装和配置可以在其他博客学习。同时，我们还需要准备一个词典lexicon.txt，大家可以自行建立自己的词典或者获取其他已经建立好的词典作为lexicon。词典在这里的作用是我们在训练模型之前需要对文本数据中出现的词进行一个统计。统计每一个词在文本...

基于srilm的语言模型训练简介（一）

会飞的鱼

09-28

1190

文章目录一、语言模型训练二、语言模型打分三、语言模型剪枝四、语言模型合并五、语言模型使用词典限制一、语言模型训练 ##功能 #读取分词后的text文件或者count文件，然后用来输出最后汇总的count文件或者语言模型 ##参数 #输入文本： # -read 读取count文件 # -text 读取分词后的文本文件 #词典文件： # -vocab 限制text和count文件的单词，没有出...

参与评论您还未登录，请先登录后发表或查看评论

用srilm生成语言模型

weixin_30879833的博客

08-07

222

SRILM的主要目标是支持语言模型的估计和评测。估计是从训练数据（训练集）中得到一个模型，包括最大似然估计及相应的平滑算法；而评测则是从测试集中计算其困惑度。其最基础和最核心的模块是n-gram模块，这也是最早实现的模块，包括两个工具：ngram-count和ngram，相应的被用来估计语言模型和计算语言模型的困惑度。 1.统计语料库生成n-gram统计文件 ngram-cou...

语言模型训练工具SRILM

烂笔头

03-27

2655

Srilm的全称是Stanford Research Institute Language Modeling Toolkit 。他被用来构建和应用统计语言模型，主要用于语音识别，统计标注和切分，以及机器翻译等工作。一、windows下编译 ubuntu编译，可以再52nlp中去找。 VC编译，可以再下面链接找， http://www.keithv.com/softw

srilm训练语言模型

yc星光

11-06

801

SRILM来建立语言模型： ngram-count -text ${text} -vocab ${vocab} -order 2 -sort -tolower -lm ${arpa} 官方参数说明： http://www.speec...

srilm-1.7.2

03-21

**srilm-1.7.2** 是一个用于训练语言模型的开源软件工具包，它在统计自然语言处理（NLP）领域具有广泛的应用。语言模型是机器学习和人工智能中的核心组成部分，主要用于预测一个序列中下一个词的概率。这对于语音...

pysrilm:SRILM 的 Python 接口

05-29

pysrilm SRILM 的 Python 接口版权所有（c）Will Roberts 2015年6月9日许可证：此包中包含的源代码在 MIT 许可证下获得许可（请参阅LICENSE.txt ）。要安装，您还需要的副本，为此您需要 SRI 的许可证。入门您可以像这样加载一个n元语法模型（请注意，由于SRILM理解zlib，因此您可以将gzip压缩的文件传递给read方法）： import srilm ngrams = srilm.Ngrams(3) ngrams.read('ngram-counts-eu.tsv.gz') 在模型中查找某个 n-gram 的频率： ngram = ['red', 'flower'] freq = ngrams.find_count(ngram) 迭代特定模型中特定顺序的所有 n-gram： for (bigram, count) in

语言模型srilm（一）基本用法

热门推荐

xmdxcsj的专栏

12-18

1万+

一、基本训练基本参数##功能 #读取分词后的text文件或者count文件，然后用来输出最后汇总的count文件或者语言模型 ##参数 #输入文本： # -read 读取count文件 # -text 读取分词后的文本文件 #词典文件： # -vocab 限制text和count文件的单词，没有出现在词典的单词替换为<unk>；如果没有，所有的单词将会被自动加入词典 # -limit-voc

srilm-1.7.2.tar.gz

11-16

srilm-1.7.2.tar.gz，用于htk，及python环境下的操作。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

SRILM学习笔记说明

小厚书

09-01

7739

最近学习了一下SRILM的源代码，分享一下学习笔记（最新完整版本），希望能够对大家了解SRI语言模型训练工具有些许帮助。限于本人水平，不足之处，望大家多多指教。笔记的主要内容使用starUML及其逆向工程工具绘制，主要针对SRILM的训练（ngram-count），内含5个jpg文件：类图--与ngram-count相关的主要类的静态图；ngram-count--从语料训练出模型的主要

语言模型训练工具SRILM详解

dohd33890的博客

09-06

870

语言模型训练工具SRILM详解 SRILM是著名的约翰霍普金斯夏季研讨会（Johns Hopkins Summer Workshop）的产物，诞生于1995年，由SRI实验室的Andreas Stolcke负责开发维护。关于SRILM的安装，我已经在前面关于moses平台搭建的文章（参见：《Moses相关介绍》和《Ubuntu8.10下moses测试平台搭建全记录》）中介绍过了，...

语言模型训练工具srilm

罗小黑嘛

07-13

878

转载自：https://www.jianshu.com/p/85781d5baf2e srilm是著名的约翰霍普金斯夏季研讨会（Johns Hopkins Summer Workshop）的产物，诞生于1995年，由SRI实验室的Andreas Stolcke负责开发维护。 srilm支持语言模型的估计和评测。估计是从训练数据（训练集）中得到一个模型...

生成语言模型

、张念

05-11

3899

这里主要介绍我使用过的两种根据文本生成语言模型的两种方法1. 通过网站： Sphinx 上传文件，生成对应的语言模型，需要注意的是文件最好不要太大，网站容易报504错误，贴下图吧，傻瓜式的操作方式：2. 使用SRILM 训练语言模型SRILM基本使用方法1、从语料库中生成n-gram计数文件：1ngram-count -text train.txt -order 3 -write train.t...

srilm使用

cug_coffee的博客

08-31

1366

SRILM用来构建和应用统计语言模型，主要用于语音识别，统计标注和切分，以及机器翻译，可运行在UNIX及Windows平台上。它主要包含以下几个部分： • 一组实现的语言模型、支持这些模型的数据结构和各种有用的函数的C++类库； • 一组建立在这些类库基础上的用于执行标准任务的可执行程序，如训练语言模型，在数据集上对这些语言模型进行测试，对文本进行标注或切分等任务。 • 一组使相关任务变得容易的各...

SRILM的安装与使用

那片天！

12-21

1万+

安装 SRILM是一个统计和分析语言模型的工具，提供一些命令行工具，如ngram,ngram-count，可以很方便的统计NGRAM的语言模型。 1、安装依赖包 c/c++ compiler，GNU make，GNU gawk，GNU gzip，bzip2，P7zip，csh，Tcl。 Tcl 可嵌入式脚本语言。用于脚本编程和测试，这里是为了SRILM的测试。下载地址 h

SRILM的安装方法

再难也要坚持

03-02

1万+

make World 最近做的一个项目要用到语言模型，在网上找了一些开源的工具包试了一下。废话不多说，下面直接介绍一下SRILM的安装方法。我实在ubuntu14.04底下使用SRILM。 SRILM的下载地址（我使用的是1.7.1版本） 1、安装 tcl 有用SRILM要用到tcl工具的一些功能，所以我先装了tcl。 tcl的下载地址（我使用的是 tc

构建语言模型（一）：文本语料处理

lujian1989的专栏

12-13

6916

1. 语言模型概述与流程 2. 文本语料抓取与处理

SRILM：语言建模工具包在文本挖掘与自然语言处理中的应用

这篇文档是关于SRILM（Statistical Language Modeling Toolkit）的介绍，这是一个由C++库、可执行程序和辅助脚本组成的集合，专门用于语音识别和其他应用中的统计语言模型的生产和实验。SRILM工具包免费提供非商业...