大模型中token是什么？QA测试必须掌握的知识点

AI技术老狗（QA）

已于 2024-09-22 15:43:11 修改

阅读量903

点赞数 23

文章标签：自然语言处理人工智能

于 2024-09-22 15:34:01 首次发布

本文链接：https://blog.csdn.net/longxiaotian718/article/details/142437544

版权

模型理解和处理的基本单位就是Token，那模型处理的基本单位又是什么呢？

它可以是单词、字符、短语甚至图像片段、声音片段等。例如，一句话会被分割成多个 Token，每个标点符号也会被视为单独的 Token。

Token 的划分方式会影响模型对数据的理解和处理。例如，中英文的 Token 划分方式就存在差异。对于中文，由于存在多音字和词组的情况，Token 的划分需要更加细致。

大型语言模型(LLM)是不能真直接正理解原始文本的，相反，大模型只能识别被转化的token，文本被转换为称为token的数字表示形式，然后将这些token提供给模型进行处理。

比如我们最熟悉的那个下雨天的对联：

“下雨天留客天天留我不留” 对于不同的断句和符号分割，就会生成不同的token，不同的token组合就会是不同意思。

一个常用的token分析例子：今天天气很好我们对这个句子进行Token化，则这个句子可以有以下几种Token序列：

基于空格的 Token 化：

css
复制代码
["今天", "天气", "很好"]
1
2
3
基于字的 Token 化：

css
复制代码
["今", "天", "天", "气"

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

AI技术老狗（QA）

关注关注

23
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

大模型推理速度测评的实战代码

herosunly的博客

01-06

3万+

今天给大家带来的文章是大模型推理速度测评的实战代码，希望能对学习大模型的同学们有所帮助。文章目录 1. 前言 2. 实战代码

LLM系列(1)：构建面向知识库的行业专属大模型系统——全流程落地技术方案

丨汀、的博客

04-29

1404

LLM系列(1)：构建面向知识库的行业专属大模型系统——全流程落地技术方案

参与评论您还未登录，请先登录后发表或查看评论

【深度学习】不同领域中对于token的理解

码农努力学习

02-07

663

虽然一个Token通常对应一个单词，但在一些情况下，它也可能是一个词组，甚至是单词的子部分。比如，它可以通过记住“de”和“bug”这两个Token，来扩展理解更多由相同子词构成的词汇，例如“debug”，“devalue”，甚至是“decrease”（减少）在Tokenization过程中，一个Token不仅仅可以是一个完整的单词，它还可以是一个词组，甚至是单词的部分，具体取决于上下文和算法。在自然语言处理（NLP）中，Token通常是文本处理的最小单元，可能是一个单词、词组，或者一个符号。

【大模型】Token计算方式与DeepSeek输出速率测试

兴趣使然的创作者

03-18

2030

本文将围绕token，对输入token进行统计分析，并对本地部署的DeepSeek大模型token的输出速度进行相关测试。

大模型中的token是什么？一文让你搞懂什么是token！

2401_85390073的博客

03-02

1781

在计算机领域中，token 通常是指一串字符或符号，比如微信公众平台的密钥，就被称作一个 token，其实就是一长串的字符。而在人工智能领域，尤其是自然语言处理(Natural Language Processing, NLP)中， “token” 指的是。

一文详解！大模型性能测试全指标、计算方法及优化指南

大模型研究中心

01-21

7867

在当今智能化、实时化需求日益增长的背景下，性能和稳定性已成为评价大模型应用能力的核心指标。从响应速度到生成质量，从并发能力到稳定性，这些维度共同构成了大模型的综合性能评估体系。通过持续优化，未来的大模型必将在多样化应用场景中展现更强的灵活性和可靠性。以下是一个用于计算和记录大模型的首 token 时延、首句时延以及整个输出时延的 Python 脚本。该脚本假设你有一个函数。

如何评判大模型的输出速度？首Token延迟和其余Token延迟有什么不同？

热门推荐

深数研究院

08-12

1万+

如果你使用商用大模型，或者使用开源大模型本地化部署，除了生成的质量之外，另外一个关键的指标就是生成token的速度。而且并不是简单的每秒生成多少个token，而是拆成了两个阶段： 1. prefill：预填充，并行处理输入的 tokens。 2. decoding：解码，逐个生成下一个 token。

大模型知识点汇总——模型基础知识

TigerZ*的博客

03-18

978

本文主要介绍LLM面试中的模型方面的基础知识点，并且每个知识点做成了一级目录的形式，便于查阅，有任何建议和意见实时修改更新。

大模型相关基础知识学习

qq_52234528的博客

06-07

1523

学习大模型的笔记

如何从零开始训练大模型？

python122_的博客

07-06

1159

根据scaling law，模型越大，高质量数据越多，效果越好。但还有一个很直观的情况，随着预训练样本的质量不断提升，训练手段的优化。新的模型，往往效果能轻松反超参数量两倍于它的模型。例如，最新出的minicpm，微信内部评测效果也是非常棒的。跟规模相对接近的2b、7b模型比，得分比qwen2b高，和qwen7b比有的高有的低。这个是minicpm的详细技术文档。这说明，现有参数量情况下，哪怕是2B尺度，也并没有得到充分训练。

大语言模型系列-T5

君子之学必日新，日新者日进也。不日新者必日退，未有不进而不退者

01-24

6488

目前已经讲解了目前LLM的三大流派的两个起始模型：GPT-1（Decoder only）、BERT（Encoder only），但是这两个模型针对不同下游不同的NLP任务时还需要进行一定的修改（如添加一些线性层），Google经过庞大的预训练，最终提出了一个通用框架T5模型（Encoder-Decoder），将所有NLP任务转化为text to text任务，微调时无需再修改模型，直接在原模型上微调即可。ps：T5最核心的理念是：使用前缀任务声明及文本答案生成，统一所有自然语言处理任务的输入和输出。

AI测试入门：了解LLM中的Token及Tokenization技术

blues_C的博客

07-16

2660

在人工智能和自然语言处理的领域中，“Token”是一个基础且至关重要的概念。对于这个术语的翻译，各有不同的见解，包括“标记”、“词”和“令牌”。本文将详细探讨在大语言模型中，Token的含义、作用、不同的Tokenization技术，以及如何有效地理解和应用。Token是大语言模型中用来表示文本片段的基本单位。它可以是一个汉字、一个英文单词、甚至是多个字符组成的序列。

解读大模型（LLM）的token

Y525698136的博客

05-09

1159

当人们谈论大型语言模型的大小时，参数会让我们了解神经网络的结构有多复杂，而token的大小会让我们知道有多少数据用于训练参数。

一文详解几种常见本地大模型个人知识库工具部署、微调及对比选型

python1234567_的博客

09-04

7838

由于作者的眼界、精力和能力也有限，并且确实也不是专业的AI研究员，仅仅是一位兴趣使然的爱好者，这里列出的几款也单纯只是作者平常关注到的，所以可能也不全，请各位见谅！

深度学习中的token和tokenization

weixin_44716423的博客

07-22

1万+

作为一名即将入学的研究生，在这个假期准备看一些论文为自己的科研做准备，结果刚开始就出现了停顿。在论文中出现了名词token，我无法对它做出很好的翻译，导致论文读不下去。网上对它的解释多种多样，经过查阅学习后，我的理解如下。（我阅读的是英文文献，将其完全翻译成中文，并不能很好的帮助阅读，甚至能限制它的意思。所以，用英文解释英文是最好的！） Tokenization is a way of separating a piece pf text into smaller units called tokens.

NLP中什么是span和token

记录个人在工作学习中的思考和遇到的问题。

07-11

1万+

What is span & token in NLP?

多模态大语言模型arxiv论文略读（五十一）

Jamence的博客

04-30

936

➡️ 研究动机：为了探究语言-图像预训练模型是否可以从长描述中受益，研究团队首先使用预训练的多模态大型语言模型（MLLM）为3000万张图像生成详细的描述，然后在对比学习框架下研究这些长描述的使用。通过评估模型在不同扰动下的表现，研究团队希望揭示词汇重叠、跨语言迁移能力和对抗性扰动之间的关系，为未来的NLP应用提供有价值的见解。➡️ 研究动机：为了克服这些限制，研究团队提出了一种新的框架P2G，通过利用外部代理（如OCR代理和视觉定位代理）来增强MLLMs在高分辨率和文本丰富的视觉场景中的推理能力。

多模态大语言模型arxiv论文略读（五十三）