moses 编译_Moses 训练步骤

最新推荐文章于 2021-12-08 18:45:04 发布

蛾眉皓齿

最新推荐文章于 2021-12-08 18:45:04 发布

阅读量519

点赞数

文章标签： moses 编译

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42452301/article/details/111966767

版权

本文详细介绍了如何编译Moses翻译系统，包括语料预处理、语言模型训练、翻译系统训练和模型调整四个步骤。通过分词、大小写转换、过滤等预处理操作处理语料，使用KenLM或IRSTLM训练语言模型，使用train-model.perl脚本进行系统训练，最后进行模型调整以提高翻译质量。

摘要由CSDN通过智能技术生成

参考链接：http://www.statmt.org/moses/?n=Moses.Baseline

1.语料预处理

针对源和目标语言的语料库。有三步：

分词--》大小写格式转换 --》过滤。

先准备语料文件INPUT_FILE_SRC-DEST.SRC 和 INPUT_FILE_SRC-DEST.DEST

1)Tokenisation 分词

scripts/tokenizer/tokenizer.perl -l SRC_LANG< INPUT_FILE_SRC-DEST.SRC >INPUT_FILE_SRC-DEST.TOK.SRC

同样的，针对目标语言DEST

scripts/tokenizer/tokenizer.perl -l DEST_LANG< INPUT_FILE_SRC-DEST.DEST >OUTFILE_SRC-DEST.TOK.DEST

2)Truecasing 格式转换

先要跑训练脚本，得到所有的统计信息

scripts/recaser/train-truecaser.perl --model truecase_model.SRC --corpus INPUT_FILE_SRC-DEST.TOK.SRC

然后使用上一步生成的model文件，加上原有的分词后的结果文件，统一转大小写。

scripts/recaser/truecase.perl --model truecase_model.SRC INPUT_FILE_SRC-DEST.TOK.True.SRC

3)Cleaning 处理语句长度

限制长度为MIN & MAX，该命令可以一次性处理完双向的两个文件。

scripts/training/clean-cor

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
moses 编译_Moses 训练步骤

参考链接：http://www.statmt.org/moses/?n=Moses.Baseline1.语料预处理针对源和目标语言的语料库。有三步：分词--》大小写格式转换 --》过滤。先准备语料文件INPUT_FILE_SRC-DEST.SRC 和 INPUT_FILE_SRC-DEST.DEST1)Tokenisation 分词scripts/tokenizer/tokenizer.pe...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。