大语言模型(LLM)基础概念扫盲(一)

Token的概念

在处理自然语言时,文本首先会被分割成更小的单元,这些单元就是“token”,token可以是单词、字符、子词(subword)或任何其他有意义的语言片段。
在模型训练或推理之前,文本数据会经过预处理,包括分词,这个过程涉及将文本字符串分割成一系列的token,模型通过学习token之间的关系来理解语言的模式。
影响token消耗的因素:
1、文本长度。消耗token数量与输入文本长度直接相关,文本越长,消耗的token也就越多。
2、模型的复杂度。不同的模型会以不同的方式处理token,比如一些模型可能需要更多的上下文信息,因此会消耗更多的token。
3、并发请求的数量。在多用户环境中,如果多个请求同时发送到模型,每个请求都会消耗一定数量的token,因此高并发请求会加速token的消耗。

数据标注的概念

数据标注是大模型训练中至关重要的步骤,它涉及到对原始数据进行分类、标记或注释,以便模型可以学习并做出预测。不同类型的大模型(如文本类和图像类)需要不同的数据标注方法。
1、生成式问答类大语言模型(如gpt、文心一言、kimi等)
数据标注即合理构建问答对,针对原始数据,我们从多角度对其生成简洁、核心的问题描述,然后根据已有数据整理其对应答案,标注出问题和答案的对应关系,符合一定的{Q,A}格式完成数据标注过程。
2、图像识别(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值