大语言模型（LLM）基础概念扫盲（一）

最新推荐文章于 2025-05-21 15:58:32 发布

科研小fw

最新推荐文章于 2025-05-21 15:58:32 发布

阅读量813

点赞数 10

分类专栏：大语言模型（LLM）文章标签：语言模型人工智能机器学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44812718/article/details/141830974

版权

Token的概念

在处理自然语言时，文本首先会被分割成更小的单元，这些单元就是“token”，token可以是单词、字符、子词（subword）或任何其他有意义的语言片段。
在模型训练或推理之前，文本数据会经过预处理，包括分词，这个过程涉及将文本字符串分割成一系列的token，模型通过学习token之间的关系来理解语言的模式。
影响token消耗的因素：
1、文本长度。消耗token数量与输入文本长度直接相关，文本越长，消耗的token也就越多。
2、模型的复杂度。不同的模型会以不同的方式处理token，比如一些模型可能需要更多的上下文信息，因此会消耗更多的token。
3、并发请求的数量。在多用户环境中，如果多个请求同时发送到模型，每个请求都会消耗一定数量的token，因此高并发请求会加速token的消耗。

数据标注的概念

数据标注是大模型训练中至关重要的步骤，它涉及到对原始数据进行分类、标记或注释，以便模型可以学习并做出预测。不同类型的大模型（如文本类和图像类）需要不同的数据标注方法。
1、生成式问答类大语言模型（如gpt、文心一言、kimi等）
数据标注即合理构建问答对，针对原始数据，我们从多角度对其生成简洁、核心的问题描述，然后根据已有数据整理其对应答案，标注出问题和答案的对应关系，符合一定的{Q，A}格式完成数据标注过程。
2、图像识别（

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。