优雅谈论大模型4：初识Token

庞德公

已于 2024-05-11 20:42:06 修改

阅读量1.2k

点赞数 22

分类专栏：初识大模型文章标签：深度学习人工智能

于 2024-05-11 20:39:36 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Janexjy/article/details/138729067

版权

Token

在继续前行之前，需要先停下来澄清下Token这个词，以及如何将原始的语料转化为Token，在细究背后的原理之后会更加优雅的理解大模型。任何的资讯都可以生成语料，而这些语料需要被机器理解以及供后续的模型训练，那么最常见的做法是将一段文字先切片，然后一一对应的转化为数字或者向量输入模型。通常而言有三种类型的分词法：基于单词、字符以及子词的分词法。单词和字符这里就不解释，字词法运用得最为广泛，也是最为主流。字词分词法包含了BPE、WordPiece、Unigram等。GPT等主流大模型也是采用BPE的分词法。

先从个列子开始以GPT-3.5为例，输入“I must read lubanmochui, it's professional.”，下图则表明整句话一共43个字符，按照不同的颜色块被切分成13份（Token）。而且每个Token都有与之对应的i

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。