Transformers -- 未知英雄 - Part2

Halo 咯咯

已于 2024-03-30 19:59:55 修改

阅读量858

点赞数 21

分类专栏：人工智能文章标签： Transformers LLM

于 2024-03-30 19:59:08 首次发布

本文为博主原创文章，未经博主允许不得转载。基咯咯~

本文链接：https://blog.csdn.net/u010180815/article/details/137181103

版权

本文探讨了标记化在自然语言处理中的重要性，特别是在构建大型语言模型（LLMs）时，如BPE和WordPiece算法如何将文本分解成可理解的单元。通过分析Gemma-7b、GPT2、Mistral-7B-v0.1和BERT等模型的标记化差异，展示了不同模型如何以独特方式处理相同输入。了解这些差异对于深入理解Transformer架构至关重要。

摘要由CSDN通过智能技术生成

公众号：Halo咯咯，欢迎关注~

前文回顾：

Part1. Transformers —— 以通俗易懂的方式解释-Part 1

在第一部分中，我提到了“单词”这一概念，但请注意，这仅仅是为了表述上的便利。实际上，“令牌”（token）这一术语更为精确。接下来，我们将探讨标记化（tokenization）的含义以及各种模型是如何运用各自的标记化机制的。

标记化是自然语言处理中的一项基本技术，它涉及将文本序列分解成模型能够理解的单个单元，这些单元可以是单词、子词或标记。在构建大型语言模型（LLMs）时，采用如BPE（Byte Pair Encoding）或WordPiece等子词算法进行标记化尤为重要。这些算法能够将文本分割成更小的、有意义的单元，从而捕获广泛存在的常用词汇以及较少见的词汇。

通过这种方法，模型的词汇量得以有效控制，同时又能保持其对各种文本序列的表征能力。这对于处理多样化的文本数据集至关重要，因为它确保了模型具有足够的灵活性来处理各种不同的语言表达，无论是常见的还是罕见的。

最低0.47元/天解锁文章

关注

21
点赞
踩
13

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Halo 咯咯 有你的支持我会更加努力。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。