moses 编译_Moses 训练步骤

本文详细介绍了如何编译Moses翻译系统,包括语料预处理、语言模型训练、翻译系统训练和模型调整四个步骤。通过分词、大小写转换、过滤等预处理操作处理语料,使用KenLM或IRSTLM训练语言模型,使用train-model.perl脚本进行系统训练,最后进行模型调整以提高翻译质量。
摘要由CSDN通过智能技术生成

参考链接:http://www.statmt.org/moses/?n=Moses.Baseline

1.语料预处理

针对源和目标语言的语料库。有三步:

分词--》 大小写格式转换 --》 过滤。

先准备语料文件INPUT_FILE_SRC-DEST.SRC  和 INPUT_FILE_SRC-DEST.DEST

1)Tokenisation 分词

scripts/tokenizer/tokenizer.perl -l SRC_LANG< INPUT_FILE_SRC-DEST.SRC    >INPUT_FILE_SRC-DEST.TOK.SRC

同样的,针对目标语言DEST

scripts/tokenizer/tokenizer.perl -l DEST_LANG< INPUT_FILE_SRC-DEST.DEST    >OUTFILE_SRC-DEST.TOK.DEST

2)Truecasing 格式转换

先要跑训练脚本,得到所有的统计信息

scripts/recaser/train-truecaser.perl   --model truecase_model.SRC --corpus     INPUT_FILE_SRC-DEST.TOK.SRC

然后使用上一步生成的model文件,加上原有的分词后的结果文件,统一转大小写。

scripts/recaser/truecase.perl --model  truecase_model.SRC     INPUT_FILE_SRC-DEST.TOK.True.SRC

3)Cleaning 处理语句长度

限制长度为MIN & MAX,该命令可以一次性处理完双向的两个文件。

scripts/training/clean-cor

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值