参考链接:http://www.statmt.org/moses/?n=Moses.Baseline
1.语料预处理
针对源和目标语言的语料库。有三步:
分词--》 大小写格式转换 --》 过滤。
先准备语料文件INPUT_FILE_SRC-DEST.SRC 和 INPUT_FILE_SRC-DEST.DEST
1)Tokenisation 分词
scripts/tokenizer/tokenizer.perl -l SRC_LANG< INPUT_FILE_SRC-DEST.SRC >INPUT_FILE_SRC-DEST.TOK.SRC
同样的,针对目标语言DEST
scripts/tokenizer/tokenizer.perl -l DEST_LANG< INPUT_FILE_SRC-DEST.DEST >OUTFILE_SRC-DEST.TOK.DEST
2)Truecasing 格式转换
先要跑训练脚本,得到所有的统计信息
scripts/recaser/train-truecaser.perl --model truecase_model.SRC --corpus INPUT_FILE_SRC-DEST.TOK.SRC
然后使用上一步生成的model文件,加上原有的分词后的结果文件,统一转大小写。
scripts/recaser/truecase.perl --model truecase_model.SRC INPUT_FILE_SRC-DEST.TOK.True.SRC
3)Cleaning 处理语句长度
限制长度为MIN & MAX,该命令可以一次性处理完双向的两个文件。
scripts/training/clean-cor