Wordpiece Model --学习笔记

本文介绍了Wordpiece模型,一种用于解决词汇表外词汇翻译问题的数据驱动方法。通过训练生成的wordpiece序列,可以在保持灵活性的同时提高语言模型的效率。混合词/字符模型是另一种方法,它将OOV词转换为字符序列,利用特殊前缀标识字符位置。这两种方法都在神经机器翻译中起到了关键作用。
摘要由CSDN通过智能技术生成

0、Segmentation Approaches

神经机器翻译模型通常使用固定的词汇,即使翻译从根本上来说是一个开放的词汇问题(名称、数字、日期等)。有两大类方法可以解决词汇表外词汇(OOV,即词汇表未登录的词)的翻译问题。

一种方法是简单地将罕见字从源复制到目标(如最罕见的字是名称或数字正确的翻译只是一个副本),要么基于注意力模型,使用外部对齐模型,甚至使用一个更复杂的专用指向网络。

另一个大类方法是使用sub-word units,即分词单位,如chararacters,mixed word/characters或者更加智能的分词。

1、Wordpiece Model

wordpiece模型(WPM)的实现,最初是为解决谷歌语音识别系统开发时遇到的日语/韩语的分割问题。这种方法完全是数据驱动的,并保证生成
任何可能的字符序列的确定性分割。

对于任意单词的处理,首先将单词分解为给定训练过的单词模块的单词快。在对模型进行训练之前,加入特殊的单词界线符号,使原词序列保持不变,使得可以从文字序列中恢复且没有歧义。

在解码时,模型首先产生一个wordpiece序列,然后被转换成相应的单词序列。

以下是一个单词序列和相应的wordpieces序列例子:

• Word: Jet makers feud over seat width with big orders at stake
• wordpieces: _J et _makers _fe ud _over _seat _width _with _big _orders _at _stake

在上面的例子中,单词Jet被分成了两个单词:

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值