BPE (Byte-Pair Encoding) Tokenization

诸葛思颖

已于 2024-06-19 18:10:56 修改

阅读量1k

点赞数 12

分类专栏： NLP 文章标签： nlp BPE

于 2024-06-19 13:45:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/si_ying/article/details/139798046

版权

NLP 专栏收录该内容

7 篇文章 1 订阅

订阅专栏

目录

一、Tokenization 的概念
二、BPE 的概念
三、BPE 的步骤

遇到看不明白的地方，欢迎在评论中留言呐，一起讨论，一起进步！

本文参考： P24 台大资讯 2023秋季深度学习之应用｜ADL 5.1：BPE (Byte-Pair Encoding) Tokenization

一、Tokenization 的概念

Tokenization 即将每个单词进行切分成小的单元。

我们其实也可以直接将每个单词作为一个单元来进行后续的训练，但是这样当我们处理新单词的时候就没有办法给出一个合适的表示，可能许多没有见过的所有的字都公用同一个表示。
在这里插入图片描述

然而，作为真人的我们第一次看到生词的时候，并不是对它一无所知的，我们可以通过生词的组成来进行猜测意思。
在这里插入图片描述
所以我们并不以单词作为一个 token，而是将单词进一步切分，即进行Tokenization。

Tokenization 可以通过多种方式来实现，BPE (Byte-Pair Encoding) 就是其中一种，这种方式比较简单而且非常流行，现在各式各样的预训练模型、基于 Transformer 模型等等都应用了 BPE 方法。

二、BPE 的概念

将单词进行切分，那切分到什么程度合适呢？如果切分单元为字母，这样不存在没有见过的字母，而且整个字母表容量也很小，但是这样一来多个字母形成的语义就难以被建模。

子词（Subword，parts of words）在单词与字母之间进行了折中，这种方式也是一个主流的方法。BPE 就是用了这样的方法来定义子词的词表，将一些常出现的连续的子词放到词表中。

三、BPE 的步骤

假设我们的训练数据如下：
在这里插入图片描述

step 1：初始化词表
将训练语料库中的所有字符（包括单词结束符号）作为初始词汇表的元素。
step 2：统计词频
对于给定的文本数据集，统计每个字符对（两个连续字符的组合）的出现频率。
step 3：合并最频繁的字符对
从所有字符对中选择出现频率最高的一对。将选定的字符对视为一个单独的词元（token），并将其添加到词汇表中。
step 4：更新词频统计
将文本数据集中的所有实例中的选定字符对替换为新创建的词元，从 step 2 进行重复，直到达到预定的词汇表大小或无法进一步合并字符对。

……

最终生成的词汇表包含了所有 token，包括原始的字符和合并后的 token。
在这里插入图片描述

如果我们要处理一个没有见过的单词 lowest，通过以上规则我们会将这个单词分为 low 和 est</w> 两个部分。

如果我们要处理一个没有见过的单词 powest，通过以上规则我们会将这个单词分为 <unk>、o、w 和 est</w> 四个部分。其中 p 在词表中并没有出现，因此我们这里表示为 <unk>。

在这里插入图片描述

关注

12
点赞
踩
20

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

诸葛思颖 CSDN认证博客专家 CSDN认证企业博客

码龄5年

北京邮电大学

71: 原创

30万+: 周排名

4万+: 总排名

11万+: 访问

: 等级

1351: 积分

314: 粉丝

411: 获赞

13: 评论

815: 收藏

私信

关注

热门文章

分类专栏

最新评论

求解全微分的原函数（二元）
beatxxxx: 这四条不是格林公式与路径无关的四条等价吗
求解全微分的原函数（二元）
计算机魔术师: 不严谨啊这不是全微分的充分必要条件
Python 基础：使用 unittest 模块进行代码测试
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
用 python 模拟水滴折射
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)增加除了各种控件外，文章正文的字数；(3)使用更多的站内链接。
自然语言处理基础
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/618600535。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

诸葛思颖 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。