大语言模型(LLM)基础概念扫盲(一)

Token的概念

在处理自然语言时,文本首先会被分割成更小的单元,这些单元就是“token”,token可以是单词、字符、子词(subword)或任何其他有意义的语言片段。
在模型训练或推理之前,文本数据会经过预处理,包括分词,这个过程涉及将文本字符串分割成一系列的token,模型通过学习token之间的关系来理解语言的模式。
影响token消耗的因素:
1、文本长度。消耗token数量与输入文本长度直接相关,文本越长,消耗的token也就越多。
2、模型的复杂度。不同的模型会以不同的方式处理token,比如一些模型可能需要更多的上下文信息,因此会消耗更多的token。
3、并发请求的数量。在多用户环境中,如果多个请求同时发送到模型,每个请求都会消耗一定数量的token,因此高并发请求会加速token的消耗。

数据标注的概念

数据标注是大模型训练中至关重要的步骤,它涉及到对原始数据进行分类、标记或注释,以便模型可以学习并做出预测。不同类型的大模型(如文本类和图像类)需要不同的数据标注方法。
1、生成式问答类大语言模型(如gpt、文心一言、kimi等)
数据标注即合理构建问答对,针对原始数据,我们从多角度对其生成简洁、核心的问题描述,然后根据已有数据整理其对应答案,标注出问题和答案的对应关系,符合一定的{Q,A}格式完成数据标注过程。
2、图像识别(分类)类大语言模型
常见的包括目标检测、图像分割、图像分类、关键点标注等。
目标检测:为图像中的对象绘制边界框,并标注对象的类别。例如,在一张包含多辆汽车的图像中,为每辆汽车绘制一个矩形框,并标注它们的类别为“汽车”。
图像分割:对图像进行像素级别的标注,将图像中的每个像素分配到特定的类别。例如,在医学图像中,对病变区域进行精确的分割,标记出肿瘤或其他异常区域。
图像分类:为整个图像分配一个类别标签。例如,将一张图像标记为“猫”或“狗”。这种任务通常用于训练分类模型,以识别图像的主要内容。
关键点标注:标记图像中对象的关键点,例如在面部识别中标记眼睛、鼻子和嘴巴的位置。这对于面部识别和姿势估计等任务非常重要。
3、图像生成类大语言模型
文生图类大模型用户可以通过描述来生成符合心意的图像,因此我们在数据标注过程中,需要对原始的图像数据生成准确的文本描述。这些描述应该详细且全面地覆盖图像中的主要元素。例如,对于一张包含狗、球和草地的图像,描述可以是:“一只金毛犬在绿色的草地上玩着一个红色的球。”

训练和推理的概念

训练是模型学习从数据中提取特征和模式的过程。训练的目的是调整模型的参数,使其能够准确地预测或分类新的、未见过的数据。
推理(也称为模型推理或预测)是模型训练完成后,使用模型对新数据进行预测的过程。在推理阶段,模型不再学习新信息,而是应用其已训练的参数来处理输入数据并生成输出。推理是模型实际应用的阶段,不再进行参数更新。
因此训练比推理要求更高的计算资源,但推理对延迟和响应时间有更高的要求。

量化的概念

这个我有在一篇博客中详细介绍过量化和大模型精度的关系,大家可以看一下。
https://blog.csdn.net/qq_44812718/article/details/141675145?spm=1001.2014.3001.5501

下期给大家详细讲一讲Prompt工程、微调、RAG等概念。

  • 8
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值