1. 语料 MultiUN-zh-en.txt
2. 使用工具:
中文分词工具(stanford segmenter),
英文的tokenizer
对齐工具GIZA++ (giza-pp-v1.0.7.tar.gz)
3. 预处理:
a. 下载 en-zh-multiUN.tmx 版本的 包含了并行的句对,但是句对有些是错误的。需要处理一下,另外有些句子异乎寻常的长(估计是错误,我先删除了,不然在中文分词的时候会报错)。 将en-zh-multiUN.tmx文件拆分了 每10M分成一个文件。
b. 中文分词 下载 stanford segmenter (版本2013-04-04), 使用命令行格式
java -Xmx3072m -cp ./seg.jar edu.stanford.nlp.ie.crf.CRFClassifier -sighanCorporaDict ./data -testFileinput.file -inputEncoding UTF-8 -sighanPostProcessing true -keepAllWhitespaces false -loadClassifier ./data/pku.gz -serDictionary ./data/dict-chris6.ser.gz >output.file ;
input.file 和 output.file 需要替换。