Token的概念
在处理自然语言时,文本首先会被分割成更小的单元,这些单元就是“token”,token可以是单词、字符、子词(subword)或任何其他有意义的语言片段。
在模型训练或推理之前,文本数据会经过预处理,包括分词,这个过程涉及将文本字符串分割成一系列的token,模型通过学习token之间的关系来理解语言的模式。
影响token消耗的因素:
1、文本长度。消耗token数量与输入文本长度直接相关,文本越长,消耗的token也就越多。
2、模型的复杂度。不同的模型会以不同的方式处理token,比如一些模型可能需要更多的上下文信息,因此会消耗更多的token。
3、并发请求的数量。在多用户环境中,如果多个请求同时发送到模型,每个请求都会消耗一定数量的token,因此高并发请求会加速token的消耗。
数据标注的概念
数据标注是大模型训练中至关重要的步骤,它涉及到对原始数据进行分类、标记或注释,以便模型可以学习并做出预测。不同类型的大模型(如文本类和图像类)需要不同的数据标注方法。
1、生成式问答类大语言模型(如gpt、文心一言、kimi等)
数据标注即合理构建问答对,针对原始数据,我们从多角度对其生成简洁、核心的问题描述,然后根据已有数据整理其对应答案,标注出问题和答案的对应关系,符合一定的{Q,A}格式完成数据标注过程。
2、图像识别(