0、Segmentation Approaches
神经机器翻译模型通常使用固定的词汇,即使翻译从根本上来说是一个开放的词汇问题(名称、数字、日期等)。有两大类方法可以解决词汇表外词汇(OOV,即词汇表未登录的词)的翻译问题。
一种方法是简单地将罕见字从源复制到目标(如最罕见的字是名称或数字正确的翻译只是一个副本),要么基于注意力模型,使用外部对齐模型,甚至使用一个更复杂的专用指向网络。
另一个大类方法是使用sub-word units,即分词单位,如chararacters,mixed word/characters或者更加智能的分词。
1、Wordpiece Model
wordpiece模型(WPM)的实现,最初是为解决谷歌语音识别系统开发时遇到的日语/韩语的分割问题。这种方法完全是数据驱动的,并保证生成
任何可能的字符序列的确定性分割。
对于任意单词的处理,首先将单词分解为给定训练过的单词模块的单词快。在对模型进行训练之前,加入特殊的单词界线符号,使原词序列保持不变,使得可以从文字序列中恢复且没有歧义。
在解码时,模型首先产生一个wordpiece序列,然后被转换成相应的单词序列。
以下是一个单词序列和相应的wordpieces序列例子:
• Word: Jet makers feud over seat width with big orders at stake
• wordpieces: _J et _makers _fe ud _over _seat _width _with _big _orders _at _stake
在上面的例子中,单词Jet被分成了两个单词: