Wordpiece Model --学习笔记

最新推荐文章于 2024-08-07 10:35:28 发布

Juanly Jack

最新推荐文章于 2024-08-07 10:35:28 发布

阅读量9.4k

点赞数 3

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_38088359/article/details/84563458

版权

本文介绍了Wordpiece模型，一种用于解决词汇表外词汇翻译问题的数据驱动方法。通过训练生成的wordpiece序列，可以在保持灵活性的同时提高语言模型的效率。混合词/字符模型是另一种方法，它将OOV词转换为字符序列，利用特殊前缀标识字符位置。这两种方法都在神经机器翻译中起到了关键作用。

摘要由CSDN通过智能技术生成

0、Segmentation Approaches

神经机器翻译模型通常使用固定的词汇，即使翻译从根本上来说是一个开放的词汇问题(名称、数字、日期等)。有两大类方法可以解决词汇表外词汇（OOV,即词汇表未登录的词）的翻译问题。

一种方法是简单地将罕见字从源复制到目标(如最罕见的字是名称或数字正确的翻译只是一个副本),要么基于注意力模型,使用外部对齐模型,甚至使用一个更复杂的专用指向网络。

另一个大类方法是使用sub-word units，即分词单位，如chararacters，mixed word/characters或者更加智能的分词。

1、Wordpiece Model

wordpiece模型(WPM)的实现，最初是为解决谷歌语音识别系统开发时遇到的日语/韩语的分割问题。这种方法完全是数据驱动的，并保证生成
任何可能的字符序列的确定性分割。

对于任意单词的处理，首先将单词分解为给定训练过的单词模块的单词快。在对模型进行训练之前，加入特殊的单词界线符号，使原词序列保持不变，使得可以从文字序列中恢复且没有歧义。

在解码时，模型首先产生一个wordpiece序列，然后被转换成相应的单词序列。

以下是一个单词序列和相应的wordpieces序列例子：

• Word: Jet makers feud over seat width with big orders at stake
• wordpieces: _J et _makers _fe ud _over _seat _width _with _big _orders _at _stake

在上面的例子中，单词Jet被分成了两个单词：

最低0.47元/天解锁文章

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。