MOSES翻译系统的训练，调优和使用

最新推荐文章于 2023-08-07 11:29:00 发布

原创

最新推荐文章于 2023-08-07 11:29:00 发布 · 1.4w 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#机器翻译 #机器学习 #moses

本文介绍了如何使用Moses搭建机器翻译系统，涉及语料库的预处理，包括tokenisation、truecasing和cleaning，语言模型训练，以及翻译模型的训练和调整。通过预处理、训练、调整权重，最终实现中文到英文的翻译。

这里我假设你已经成功安装了摩西moses，并希望在平行语料数据的基础上建立一个真正的短语翻译系统。这个过程需要一定的Unix的基础，理想情况下，最好还有一台Linux服务器。当然，如果你只是想试试的话，你也可以在一台笔记本电脑上安装并运行它，但最少要2G的内存(貌似现在的电脑都至少有这么大吧)，和10G的空闲磁盘空间（声明一下，这是本人估计的，有可能配置达不到这个也能跑，但训练的速度会非常慢的）。

在进行下述操作之前，我建议你将编译后生成的moses可执行文件和之前编译安装过后的Irstlm以Giza++工具整理到一个文件夹下，便于调用，本人大致的目录结构如下：

1 语料库准备和预处理

这个地方，本人使用的是射手网和各种字幕网站采集和清洗过的英文电影电视剧字幕的中英平行语料。你要是只是想试一试moses而又没有语料的话，可以wget http://www.statmt.org/wmt12/training-parallel.tgz进行下载，这里面是欧洲各国语言（德语，英语，法语等）的平行语料库，你可以用作测试。

在进行语料训练之前，要先对我们的平行语料做一些预处理，主要包括以下以下步骤：

tokenisation：这一步主要是在单词和单词之间或者单词和标点之间插入空白，以便于后续识别和其他操作。

truecasing：初始每句话的字和词组都被转换为没有格式的形式(例如统一为小写）。这有助于减少数据稀疏性问题。

cleaning：长句和空语句可引起训练过程中的问题，因此将其删除，同时删除显不对齐句子删除。

对了，对于平行语料的中文部分的话，在训练之前一定要注意要先分好词，这样后面使用giza-pp进行对齐训练的时候才能精准对齐词、词组和短语。我使用的是中科院ictclas分词系统，但是又licence过期的可能，你也可以使用Ansj，基本是将ictlas用java重写了一遍，词库基本不变，分词的程序我可以在之后的文章里给出。

我的语料存在/data/traing_500m_data/中，则执行以下指令即可：

tokenisation：

/home/yaoqiang/moses/moses_binary/scripts/tokenizer/tokenizer.perl -\l en ‐threads 8 < all_movie_data_20130422_en > all_movie_data_20130422.tok.en

/home/yaoqiang/moses/moses_binary/scripts/tokenizer/tokenizer.perl -\l zh ‐threads 8 < all_movie_data_20130422_zh > all_movie_data_20130422.tok.zh

Truecaser和truecasing：

/home/yaoqiang/moses/moses_binary/scripts/recaser/train-truecaser.perl --model truecase-model.en --corpus \