摘要:
NMT由于考虑到计算的复杂度,因此都使用一个受限词表,这样会导致很多单词成了词表外的OOV词,而这种OOV词在翻译时很难处理并且打破了句子结构,增加了语句的歧义性,为了解决这个问题,提出了一种新的替换-翻译-恢复的方法。
1).在替换阶段,集外词由单语数据中学到的相似的集内词替换。
2).在翻译和恢复阶段,将会使用替换集外词后的双语语料模型进行翻译。
3).最后替换单词的翻译结果将会被替换前的单词代替。
1.introduction
大多数NMT将源端和目标端词典限制在30k到80k的高频词,将所有的rare word转换为UNK,一个很明显的问题是:
1).如果源端词是OOV或者它的翻译的词是OOV,这个模型在测试阶段很难为这个词生成合适的翻译结果。
2).让rare words变为毫无意义的unk将会增加句子的歧义,这就会使一部分结构相同部分单词不同但都是OOV的句子出现一样的翻译结果。
举例:
为了解决这个问题,我们提出了一种新颖的基于相似度替换rare word的方法,
具体做法:
1).在训练阶段,首先引出由双语语料产生的词对齐,每个无论是源端还是目标端包含rare word的词对齐对儿将会被具有相似意义的in-vocabulary words代替(这个相似模型是从一个很大的单语语料中学到的&#