ccmt2019 notebook
记录第十五届全国机器翻译大会机器翻译评测的点滴过程。
Icoding_F2014
相信代码可以变化世界
展开
-
ccmt2019-0511-语料的预处理
今天主要就是使用moses把英文语料做一些预处理,主要是做tokenize。tokenize的作用:在语料的单词和单词之间或者单词和标点之间插入空白,然后进行后续操作。moses的安装:安装基础库sudo apt-get install build-essential git-core pkg-config automake libtool wget zlib1g-dev pytho...原创 2019-05-11 12:05:03 · 1023 阅读 · 3 评论 -
机器翻译 bpe——bytes-pair-encoding以及开源项目subword-nmt快速入门
subword-nmt干啥用的解决未登录词问题的一种方法。在做nlp的时候,很多时候我们会对语料做一个预处理,生成语料的一个字典。为了不让字典太大,我们通常只会把出现频次大于某个阈值的词丢到字典里边,剩下所有的词都统一编码成#UNK 。这是很经典 很朴素的做法,这种方法不能解决未登录词的问题。未登录词是指 在验证集或测试集出现了训练集从来没见到过的单词。这种未登录词对分词,机器翻译性能影响很大...原创 2019-04-13 18:47:21 · 12909 阅读 · 20 评论