人工智能AI_模型输入令牌什么意思-CSDN博客

本文链接：https://blog.csdn.net/leese233/article/details/129863027

AI 模型。它使用深度神经网络，从数十亿或数万亿个单词中学习，能够生成任何主题或领域的文本。它可以执行各种自然语言任务，如分类、总结、翻译、生成和对话。
大语言模型开发建立在4个核心思想上：
模型 – Models
提示词 - Prompts
令牌 - Tokens
嵌入 - Embeddings

模型 – Models

模型是指经过训练和微调的 LLM AI 的特定实例或版本，例如 GPT-3.5 或 GPT-4，它们已经在大量的文本或代码（针对 Codex 模型）上进行了训练，并可以通过 API 或平台进行访问和使用。OpenAI 和 Azure OpenAI 提供了各种模型，可以通过参数或选项进行定制和控制，并可应用于不同的领域和任务。

提示词 - Prompts

提示词是用户或程序向 LLM AI 提供的输入或查询，以引发模型的特定响应。提示可以是自然语言句子或问题，也可以是代码片段或命令，或者是任何文本或代码的组合，具体取决于领域和任务。提示也可以嵌套或链接在一起，这意味着一个提示的输出可以作为另一个提示的输入，从而创建与模型更为复杂和动态的交互。

创造性地设计 LLM AI 提示词是一个新兴的领域，被称为“提示设计”或“提示工程”。它涉及到制定有效和高效的提示的过程，以引发 LLM AI 模型所需的响应。主要的挑战包括选择正确的词语、短语、符号和格式，以指导模型生成高质量和相关性强的文本。人们还可以尝试不同的参数和设置，这些参数和设置可以影响模型的行为和性能，例如温度、top-k、top-p、penalty。

令牌 - Tokens

令牌是 LLM AI 用于处理和生成语言的文本或代码的基本单位，是模型的语言构建块。根据选择的分词方法或方案，令牌可以是单词、字符、子词或符号、代码，这取决于模型的类型和大小。令牌被赋予数字值或标识符，并按序列或向量排列，最终被输入模型或进行输出。

令牌化是将输入和输出文本分割成较小的单位，以便 LLM AI 模型处理的过程。分词可以帮助模型处理不同的语言、词汇和格式，并减少计算和存储成本。分词还可以通过影响令牌的含义和上下文来影响生成的文本的质量和多样性。分词可以使用不同的方法进行，例如基于规则、统计或神经网络，这取决于文本的复杂性和变异性。

嵌入 - Embeddings

嵌入是令牌（如句子、段落或文档）在高维向量空间中的表示或编码，其中每个维度对应于语言的一个学习特征或属性。嵌入是模型捕捉和存储语言的含义和关系的方式，也是模型比较和对比不同令牌或语言单位的方式。对于模型来说，嵌入是离散和连续、符号和数字两个方面之间的桥梁。

嵌入是表示模型处理和生成的令牌的含义和上下文的数字向量或数组。嵌入是从模型的参数或权重派生出来的，并用于对输入和输出文本进行编码和解码。嵌入可以帮助模型理解令牌之间的语义和句法关系，并生成更相关和连贯的文本。嵌入还可以使模型处理多模态任务，例如图像和代码生成，通过将不同类型的数据转换为共同的表示形式。嵌入是 GPT 模型使用的 Transformer 架构的重要组成部分，其大小和维度取决于模型和任务的不同。