bpe分词算法的原理以及在机器翻译中的应用

最新推荐文章于 2024-08-02 10:02:57 发布

鲁中地区有小雨

最新推荐文章于 2024-08-02 10:02:57 发布

阅读量7.8k

点赞数 6

文章标签： bpe 机器翻译

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gao_summer_cola/article/details/90262076

版权

概述：

bpe（byte pair encoding），是一种根据字节对进行编码的算法。主要目的是为了数据压缩，算法描述为字符串里频率最常见的一对字符被一个没有在这个字符中出现的字符代替的层层迭代过程。该算法在论文：https://arxiv.org/abs/1508.07909 Neural Machine Translation of Rare Words with Subword Units详细介绍

训练过程：

对于使用子词作为基本单位进行训练的神经机器翻译模型，训练的第一步就是根据语料生成bpe的code资源，以英文为例，该资源会将训练语料以字符为单位进行拆分，按照字符对进行组合，并对所有组合的结果根据出现的频率进行排序，出现频次越高的排名越靠前，排在第一位的是出现频率最高的子词。如图所示：e </w>为出现频率最高的子词，其中</w>表示这个e是作为单词结尾的字符。训练过程结束，会生成codec文件。如下图所示：

解码过程：

以单词“where”为例，首先按照字符拆分开，然后查找codec文件，逐对合并，优先合并频率靠前的字符对。85 319 9 15 表示在该字符对在codec文件中的评率排名。

最终where</w>可以在codec文件中被找到，因此where的bpe分词结果为where</w>，对于其他并不能像where一样能在codec文件中找到整个词的词来说，bpe分词结果以最终查询结束时的分词结果为准。

鲁中地区有小雨

关注

6
点赞
踩
26

收藏

觉得还不错? 一键收藏
8
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。