GPT4 是如何将文本 token 化的？

董董灿是个攻城狮

已于 2024-05-15 17:49:21 修改

阅读量545

点赞数 1

分类专栏： Transformer通关秘籍文章标签：深度学习 transformer 人工智能自然语言处理算法

于 2024-05-15 17:44:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dongtuoc/article/details/138917095

版权

Transformer通关秘籍专栏收录该内容

25 篇文章

订阅专栏

本文给出一个 GPT4 模型可视化token的工具网站，大家可以去上面测试一下效果。

网址：

https://platform.openai.com/tokenizer

使用说明

通过该网站工具，你可以了解一段文本如何被GPT-4模型token化的，以及文本的被token化之后的token总数是多少。

比如像下面这样：

当输入文本中含有debugger时，同样被拆分为了debug和##ger，这和之前介绍token的文章时提到的是一致的，比如这篇文章：利用bert对文本token化。

这说明debug确实是一个非常常见的基础子词。

当然你也可以将token转换为tokenID来查看。关于tokenID，后面会详细介绍其作用。

需要注意的是，具体的文本token化结果与模型有关。

像GPT-3.5和GPT-4这样的模型使用的方法与旧模型（比如GPT-2）会有不同，不同的token算法对于相同的输入文本会产生不同的token序列。

按照GPT-4官方给出的经验数据：对于常见的英文文本，一个tokne大概对应4个英文字符，大约相当于 3/4 个单词。

所以100个token大约等于75个单词。

本节为一个工具介绍，仅做了解即可。

最近开始撰写《Transformer专栏》了，会以最通俗的讲解方式来讲透其中的所有算法原理和使用动机。欢迎关注。移步：我的 Transformer 专栏来了

我的Transformer专栏来啦-CSDN博客文章浏览阅读558次，点赞11次，收藏5次。现在很多主流的大语言模型，比如chatGPT都是基于该架构进行的模型设计，可以说Transformer顶起了AI的半壁江山。对于这些有些枯燥的概念，有些乏味的数学表达，我会尽可能说的直白和通俗易懂，打通理解Transformer的最后一公里。我会在本公众号进行文章的首发，相关文章会添加标签“Transformer专栏”，可点击文章左下角的标签查看所有文章。巧的是，下班路上刚手敲完大纲，晚上一个小伙伴来咨询学习LLM的事情，问我之前写的《五一节前吹的牛，五一期间没完成，今天忙里偷闲，给完成了。https://blog.csdn.net/dongtuoc/article/details/138633936?spm=1001.2014.3001.5501

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

董董灿是个攻城狮 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。