基于大语言模型的智能体开发-CSDN博客

本文链接：https://blog.csdn.net/2303_81835136/article/details/141568562

大模型开发背景

工作原理：开始→用户输入→Prompt构建→迭代输出→终止符

prompt：用户每次的输入就是一个prompt，systerm prompt的输入会影响整个回答，相当于前提条件。prompt最初是 NLP（自然语言处理）研究者为下游任务设计出来的一种任务专属的输入模板，类似于一种任务（例如：分类，聚类等）会对应一种 Prompt。在 ChatGPT 推出并获得大量应用之后，Prompt 开始被推广为给大模型的所有输入。prompt构建可以帮助用户补充输入。大模型给我们的返回结果则被称为 Completion

缺陷：不具备知识会出现幻觉。措施：使用外界知识库，给LLM提供知识。

无法解决复杂逻辑关系。多个LLM各司其职。

不擅长数学计算使用外接工具，如计算器。

大模型开发

开放的大模型API、本地部署的开源大模型:

开放API如：GPT-4o、GLM、Qwen

本地部署如：GLM、Qwen、InternLM

外接知识库，外界工具：外接搜索引擎、天气查询、代码书写等接口。

Prompt工程及流程化：

如何控制智能体的交互流程、如何构建Prompt使大模型更好地发挥作用

现有的开发范式：

检索增强生成（RAG），AI Agent

主流prompt工程

●Few-shot 使用少量例子给LLM作为上提示

●Zero-shot 不使用例子输入，仅适用指令

●CoT 思维链，让LLM有思考的过程

●可控生成是用Prompt控制LLM生成我们想要的格式方便后期进行解析

Temperature

LLM 生成是具有随机性的，在模型的顶层通过选取不同预测概率的预测结果来生成最后的结果。我们一般可以通过控制 temperature 参数来控制 LLM 生成结果的随机性与创造性。

Temperature 一般取值在 0~1 之间，当取值较低接近 0 时，预测的随机性会较低，产生更保守、可预测的文本，不太可能生成意想不到或不寻常的词。当取值较高接近 1 时，预测的随机性会较高，所有词被选择的可能性更大，会产生更有创意、多样化的文本，更有可能生成不寻常或意想不到的词。

检索增强生成

大模型通常倾向于生成连续的数值或者分数作为预测结果。比如深度神经网络或Transformer架构的模型，其输出通常是非线性和连续的，这有助于捕捉数据中的复杂关系。例如，在分类任务中，大模型可能会输出一个范围内的值，然后通过某种激活函数（如Sigmoid或Softmax）转换成概率分布，但这一步是后期添加的概率解释层，来确定输出。

计算机时无法识别文本，可以将文本转换为向量进行计算，使用one-hot 编码；整数编码；word embedding。

嵌入模型（Embedding Model），也称为词嵌入或分布式表示，是一种在自然语言处理中广泛使用的预训练技术。它将词汇表中的每个词语映射到一个低维实数向量空间，使得语义相似的词语在向量空间中的距离也接近。嵌入模型的主要目的是捕捉词语之间的语义、语法和上下文信息。常见的嵌入模型有：

1. Word Embeddings（词嵌入）：如Word2Vec（包括skip-gram和CBOW）、GloVe和FastText等，通过统计文本中的共现模式来学习词向量。

2. Sentence Embeddings（句子嵌入）：用于编码整个句子或段落，如Doc2Vec、ELMo（深度双向LSTM）和BERT（基于Transformer的模型）的BERT embeddings。

3. Character Embeddings（字符嵌入）：对于那些词典未包含的新词或罕见词，通过组合字符级别的嵌入来生成单词的表示。

4. Contextual Embeddings（上下文嵌入）：像BERT、RoBERTa和ALBERT这样的预训练模型，它们能够捕捉词语在不同上下文中的动态含义，提供更为丰富的表达能力。

使用LLM搭建AI智能体

使用LLM：GPT4o比较便宜，国内的阿里的通义千问，智能AI的GLM 都是有开源可以自己运行，也可以调用API使用
工具包开发：

如刚刚提到的网页搜索、代码生成等，在此期间，需要将工具包的描述书写清楚，以便于LLM解析，（如：调用工具包需要的参数及描述）

3.提示词设计

4.处理模型的回答。

API，全称Application Programming Interface，即应用程序编程接口。它是一种预先设计好的、让软件组件之间相互通信的方式。API提供了一组预定义的规则、函数和协议，开发者可以使用这些工具来访问特定服务、数据或功能，而无需深入了解底层实现细节。比如，社交媒体平台的API允许开发者构建应用去分享内容或获取用户信息，而不需要了解所有的服务器端代码。通过API，软件可以变得更加模块化和可复用。