通俗的理解BPE词向量策略

愚昧之山绝望之谷开悟之坡

于 2024-07-24 16:13:31 发布

阅读量152

点赞数 2

分类专栏：人工智能大模型笔记文章标签：笔记

本文链接：https://blog.csdn.net/qq_15821487/article/details/140666122

版权

笔记同时被 3 个专栏收录

643 篇文章 16 订阅

订阅专栏

人工智能

45 篇文章 3 订阅

订阅专栏

大模型

11 篇文章 0 订阅

订阅专栏

当然可以。BPE（Byte Pair Encoding）是一种用于自然语言处理的词向量策略。下面我会尽量用通俗的语言来解释BPE是什么以及它是如何工作的。
想象一下，如果你面前有一堆乐高积木，这些积木代表不同的字母或者字符。最开始，你只能用这些单个的积木（字符）来搭建单词。这样做的缺点是，很多单词都需要用很多小块积木来表示，而且这种方法不能很好地处理新单词。
BPE的做法是这样的：

首先，将所有的单词拆分成单个字符。比如，单词“apple”会被拆分成“a p p l e”。
然后，统计这些字符组合出现的频率，找到最常见的连续字符对。比如，“ap”和“pp”可能是最常见的连续字符对。
将这些最常见的连续字符对合并成一个“超级积木”。比如，我们可以把“ap”和“pp”合并成“ap”和“pp”两个“超级积木”。
重复第二步和第三步，每次都找到当前最常见的连续字符对，并将它们合并成新的“超级积木”，直到达到预设的“超级积木”数量。
通过这个过程，BPE能够发现单词中的常见模式，并将这些模式合并成更大的单元。这样，原本需要很多小块积木表示的单词，现在可以用更少的“超级积木”来表示。同时，这种方法还能很好地处理新单词，因为它可以根据已有的“超级积木”组合来表示新单词。
简而言之，BPE是一种将单词拆分成更小的、常见的单元（“超级积木”）的方法，这些单元可以更好地捕捉单词的内部结构和模式。这种方法在自然语言处理中非常有用，因为它可以帮助模型更有效地学习词向量。

好的，让我们用一个更加具体的例子来解释BPE，并且尽量用生活中的事情来做比喻。
想象一下你是一个开糖果店的老板，你发现很多小朋友喜欢把不同种类的糖果组合起来买。为了方便小朋友们挑选，你决定推出一些“糖果套餐”。BPE的过程就像是你制作这些“糖果套餐”的过程。

初始状态：一开始，你的糖果店里每种糖果都是单独卖的，比如“巧克力”、“奶糖”、“棒棒糖”等。
找出最常见的组合：你开始观察哪些糖果经常被一起买走。比如，你发现“巧克力”和“奶糖”经常一起被买走。
制作套餐：于是，你决定把“巧克力”和“奶糖”打包成一个“巧克力奶糖套餐”来卖。
重复过程：过了一段时间，你又发现“巧克力奶糖套餐”和“棒棒糖”也经常一起被买走。于是，你又制作了一个更大的套餐，叫做“巧克力奶糖棒棒糖超值套餐”。
继续优化：你不断地观察和统计，继续制作新的套餐，直到你有了足够多的套餐来满足大多数小朋友的需求。
在BPE中，这个过程是这样的：
初始状态：所有的单词都是由单个字母组成的，就像糖果店里每种糖果都是单独的一样。
找出最常见的字母对：你统计文本中哪些字母是经常连续出现的。比如，你发现“th”经常一起出现。
合并字母对：你决定把“th”这两个字母合并成一个单元，就像把“巧克力”和“奶糖”打包成一个套餐。
重复过程：你继续统计和合并，找到新的常见字母对或单元组合，比如“ing”、“er”等，并将它们合并成更大的单元。
最终结果：经过多次合并，你得到了一系列的“超级单元”，这些单元可以是单个字母，也可以是多个字母组成的常见组合。这些“超级单元”就是BPE的基本单元，用来表示文本中的单词。
通过这种方式，BPE能够把单词分解成更小的、有意义的单元，这些单元可以帮助计算机更好地理解语言。就像糖果套餐帮助小朋友们更容易地选择他们喜欢的糖果组合一样。

愚昧之山绝望之谷开悟之坡

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
通俗的理解BPE词向量策略

想象一下，如果你面前有一堆乐高积木，这些积木代表不同的字母或者字符。最开始，你只能用这些单个的积木（字符）来搭建单词。这样做的缺点是，很多单词都需要用很多小块积木来表示，而且这种方法不能很好地处理新单词。想象一下你是一个开糖果店的老板，你发现很多小朋友喜欢把不同种类的糖果组合起来买。BPE的过程就像是你制作这些“糖果套餐”的过程。下面我会尽量用通俗的语言来解释BPE是什么以及它是如何工作的。好的，让我们用一个更加具体的例子来解释BPE，并且尽量用生活中的事情来做比喻。
复制链接

扫一扫

专栏目录