fast_align是一个优秀的快速词对齐工具包,在GitHub上有详细的介绍
https://github.com/clab/fast_align
注意:使用前必须先进行分词,特别是汉语语料。否则没有实际意义
需要注意的是,这里对文件的格式有一定要求,每行是源语言句子及其目标语言翻译,由带有前导和尾随空格(|||
)的三重管道符号分隔。例如3句德语 - 英语平行语料库是:
doch jetzt ist der Held gefallen . ||| but now the hero has fallen .
neue Modelle werden erprobt . ||| new models are being tested .
doch fehlen uns neue Ressourcen . ||| but we lack new resources .
可以用paste命令来完成
paste -d '|||' file1 file2
如test1.txt为:
test2.txt为: