检索增强生成和上下文提示大语言模型在飞机工程中的应用解读-CSDN博客

本文链接：https://blog.csdn.net/huifeidy/article/details/147295305

检索增强生成和上下文提示大语言模型在飞机工程中的应用

2025_Retrieval-Augmented Generation and In-Context Prompted Large Language Models in Aircraft Engineering
https://arc.aiaa.org/doi/10.2514/6.2025-0700

摘要/介绍

针对飞机工程领域中的QA任务

比较了当前最有效和最流行的三种大语言模型问题解答提示方法——大语言模型零-shot提示、大语言模型上下文提示和基于大语言模型的检索增强生成（RAG）

描述了一个新的低量、高质量的基准飞机设计QA数据集（AeroEngQA），并利用该数据集定性评估每一类大语言模型，探讨其在答案准确性和简洁性等方面的特性

方法

AeroEngQA的构建

数据来源：

1.上下文是从公共领域的文档中提取的

2.标注团队由本文的四位作者组成，代表了不同的工程研究和工业经验。每位标注者都持有工程学位，其中三位团队成员还拥有工程学博士学位。

分类：

1.单跳问题（简单推理）

2.多跳问题（复杂推理，涉及桥接实体）

此外，测试数据集包括可回答和不可回答的问题

多跳可回答问题的示例：

在这里插入图片描述

AeroEngQA****中的一个多跳可回答问题示例，突出显示了推理桥接实体（蓝色）和正确答案（从上下文中提取，黄色）。问题引用的上下文元素以绿色突出显示，方便阅读；请注意，问题中的措辞不必与上下文中的措辞完全相同（与答案不同，答案是直接从上下文中提取的）。

构建原则：

提出了关于上下文选择，问题指定，答案指定等规则

LLM的操作模式

考虑上面提到的三种基本的LLM操作模式

1.零-shot提示的LLMs（GPT3.5_turbo_zeroshot, GPT4_turbo_zeroshot）

在这种模式下，LLM模型给定一个任务描述或问题，且没有提供任何解决问题的示例。模型预计基于其已有的知识和语言理解生成一个回答。该模式下不会对LLM进行任务特定的微调。这是最简单的提示形式，因为它不需要额外的训练数据，因此成本效益高且时间效率高。然而，可能的缺点（我们在这里进行调查）是，这种方法可能会导致不够准确或不太符合上下文的回答，特别是在复杂或领域特定的任务中。模型的表现可能会不稳定或不可预测，因为它高度依赖于模型的现有知识和理解。

单跳示例：

在这里插入图片描述

多跳示例：

在这里插入图片描述

2.上下文提示的大语言模型（GPT3.5_turbo_in_context，GPT4_turbo_in_context）

上下文提示（In-context prompting），也称为少样本提示（few-shot prompting），是指在提示语中向模型提供一个或多个任务示例。这些示例作为上下文，帮助模型理解任务并基于所提供的示例生成回答。虽然这种提示方式在构造提示语方面稍显复杂（因为需要收集和筛选相关的训练示例），但其设计目的是提高模型性能的稳健性。

在这里插入图片描述

我们开发了一个 Python 脚本。该脚本可无缝集成 OpenAI 的 GPT-3.5 Turbo 与 GPT-4 Turbo 模型，根据提供的上下文内容自动生成问题回答。脚本首先使用适当的 API 密钥初始化 OpenAI 客户端，并指定所使用的模型。随后，脚本会遍历包含上下文与问题的 JSON 文件列表。针对每条数据，脚本分别为零样本（zero-shot）和上下文提示（in-context）场景构建提示语，将上下文与问题嵌入其中。这些提示语随后通过 OpenAI API 提交给 GPT 模型以获取响应。获取到的回答会与原始数据一同系统性地存储，便于实现自动化的问答生成。

3.检索增强生成（RAG_zero_shot; RAG_in_context）

使用了一个开源Python框架来构建与大型语言模型的自定义应用，名为Haystack[33]。Haystack包含了构建RAG系统所需的组件。

在这里插入图片描述

1.所有问题的测试数据集上下文被发送到Haystack文档存储。为此，我们使用了一个文档连接器将它们拼接起来，清理后使用文档分割器确保检索的内容大小不超过上下文窗口大小。分割器参数被设置为250个token切片，切片之间有50个token的重叠。分割后的文档被嵌入并写入存储。为了简化操作，我们使用了内存存储，并为每个实验重新创建它，因为文档的大小足够小。

为了在文档存储中找到相关内容，我们将测试数据集中的每个问题进行嵌入，并与存储的内容进行比较。使用Sentence-BERT[34]作为评分机制，采用transformer模型all-MiniLM-L6-v2来获取存储和问题特征向量之间的余弦相似度作为语义匹配度。对于每个问题，检索出十个最佳匹配的文档切片，并按语义相似度排序。然后过滤该列表，使得每个成员的得分至少为最佳语义匹配得分的60%。这导致的结果集大小在1到10个成员之间变化，具体取决于问题；只选择与存储内容最匹配的内容。

经过上述两步，有了一个问题和匹配内容的上下文

下一步是使用Jinja2模板语言创建一个提示。用了与零-shot和In-context实验相同的提示进行比较。我们使用的LLM是Llama3 70B Instruct[35]，通过Ollama[36] API作为封装器操作。

第一次运行的结果以json和Excel文件的形式收集。答案与其他结果一起手动标记。

第二次运行通过测试数据集进行，这次在错误回答的问题处停止脚本。检查是否是信息检索（IR）未能找到包含答案的相关部分，或者是否IR检索到了多个答案。在这种情况下，这些事件在结果文件中进行了标记。