浦语提示词工程实践

weixin_42112760

已于 2024-08-15 01:09:51 修改

阅读量633

点赞数 11

文章标签： LLM 书生浦语

于 2024-08-15 01:06:52 首次发布

本文链接：https://blog.csdn.net/weixin_42112760/article/details/141197746

版权

在本次讨论中，王明博士介绍了如何编写高质量的提示词，以引导生成式人工智能更好地执行任务。他从提示工程、long GPT框架和提示词应用三个方面进行讲解，强调了提示词设计的重要性。通过实例展示了不同提示词对模型输出的影响，提出了六大基本原则和多种技巧，以提高提示工程的效果。此外，介绍了long GPT结构化提示词的优势，帮助用户更有效地编写提示词，最终实现更优质的生成结果。
在本次讨论中，王明博士介绍了如何编写高质量的提示词，以引导生成式人工智能更好地执行任务。他从提示工程、long GPT框架和提示词应用三个方面进行讲解，强调了提示词设计的重要性。通过实例展示了不同提示词对模型输出的影响，提出了六大基本原则和多种技巧，以提高提示工程的效果。此外，介绍了long GPT结构化提示词的优势，帮助用户更有效地编写提示词，最终实现更优质的生成结果。

亮点:

00:17 提示词工程是引导生成式人工智能执行任务的关键。通过精心设计提示词，可以显著改善模型的性能和输出结果，从而实现更高质量的应用。
Prompt是大模型输入
提示工程对任务描述十分敏感
-提示词的概念和作用非常重要，提示词不仅是用户的输入，也可以是模型之前的输出。理解提示的来源有助于更好地利用大模型的能力和进行有效的交互。
prompt的前面输出也是后面输入的prompt
-通过微调和构造高质量的微调数据，能够进一步提升模型的性能。良好的提示工程是实现数据飞轮循环的基础，确保模型不断优化和迭代。
提示工程也是一种隐式的微调，是LLM更加理解任务、有结构的输出
-在提示工程中，需要遵循六大基本原则，包括指令清晰、提供参考内容和将复杂任务拆分成子任务。这些原则有助于提高模型的执行效果和输出质量。
在这里插入图片描述

**提示词的设计对AI模型的输出效果至关重要。**通过系统性测试和优化，可以显著提升生成内容的质量和准确性，从而提高用户体验和应用效果。
-清晰的描述在提示词设计中起着关键作用。通过明确表达需求，可以解决大部分问题，让AI更好地理解用户意图，从而生成更符合预期的内容。
总结性概括描述词、名词
-角色扮演技巧能够提升生成内容的质量。让AI扮演特定角色，例如翻译大师，可以显著改善翻译的优雅程度和准确性，从而更好地满足用户的需求。
在这里插入图片描述
-使用示例和结构分解对任务的完成有很大帮助。提供高质量的示例可以引导AI更好地理解任务，同时将复杂任务进行分解有助于提高处理效率。
示例的话不按照相关性排序的话会关注末尾的，按照相关性排序的话会主要关注前几个相关性比较强的，这里是顺序敏感的
思维链的设计很多，可以加入反思，形成思考-动作-反思于一体的迭代生成
对于提示中需要重点强调的部分，OpenAI 官方文档中建议用户可以使用特殊符号（例如 ♯♯♯、三引号“““和”””、XML 标签等）进行分隔，从而让大语言模型更好地理解相关内容。此外，大多数现有的大语言模型主要在英语文本上进行训练，理解英语指令的能力更强，因此在执行任务时使用英语指令可能会获得更好的执行效果。对于非英语用户来说，通过机器翻译工具将非英语任务指令转换为英语指令再输入给大语言模型，可能会是一个更有效的策略。
推荐MarkDown格式
人情世故哈哈哈
在这里插入图片描述

lang GPT结构化提示词因其优秀的结构和稳定的性能而被广泛推荐。掌握lang GPT后，用户可以更有效地完成任务，并开发出属于自己的应用，提升工作和学习效率。
-在LANGPT社区中，许多用户分享了在提示工程方面的有趣实践与例子。这些实践不仅丰富了社区的内容，还帮助成员们更好地理解如何应用long GPT。
-在写作领域，用户可以通过long GPT生成有意义的项目名称。这种能力展示了long GPT在创意工作中的潜力，帮助用户更高效地完成任务。
-通过使用long GPT，用户能够根据自己的需求生成示例代码。这为工作学习中的实际应用提供了便利，使得技术实现变得更加简单。
在这里插入图片描述

模型部署过程包括多个步骤，从等待模型完成到测试其功能。成功后，可以通过图形化界面与模型进行交互，进一步利用大模型生成内容。
-在模型部署完成后，通过Python脚本进行功能测试是关键步骤。我们需要导入必要的包并定义客户端，以确保能够成功调用和生成内容。
-启动图形化界面需要克隆工具并进行端口映射，确保能够在开发机上访问服务。完成这些步骤后，可以通过特定的地址访问启动的页面，进行设置和交互。
-提示词的构建对于与大模型的有效交互至关重要。理解提示词的结构和内容要求，将有助于更好地利用模型进行对话和内容生成。
在这里插入图片描述

通过使用LGBT提示，葡语大模型能够扮演不同角色，从而提供个性化的对话体验。这种角色化不仅提升了交流的亲密感，还使得模型能够更好地理解用户的需求与情感。
-角色扮演在对话中的重要性，使得用户能够获得更真实的互动体验。通过设定不同的角色，模型可以更好地满足用户的期望与情感需求，从而增强交流的效果。
在这里插入图片描述
-社区共享高质量提示词为用户提供了丰富的参考。在设计自己的LGBT提示时，用户可以借鉴社区中的成功案例，从而提升模型的表现和适应性。

-设计LGBT提示的过程需要明确角色的技能和工作流程。这种全面的设计方法可以确保模型在特定场景下表现出所需的特征，满足不同任务的需求。
在这里插入图片描述

**在撰写知乎文章时，可以通过大模型生成结构和标题来帮助思路。**这种方法不仅提高了写作效率，还能确保文章质量，避免常见错误。
-使用大模型来生成文章结构，可以帮助我们更好地组织内容，提升文章的逻辑性和条理性。这种方式特别适合初学者，减少了写作时的迷茫感。
-对写作助手的背景设定，可以帮助模型更好地理解任务需求，从而生成更符合实际的内容。明确角色定位对于内容创作的方向性非常重要。
-在撰写文章时，遵循一定的约束条件，比如避免低俗内容和尊重知识产权，可以提升文章的专业性。这些约束能够引导我们写出更高质量的内容。
为了撰写高质量的文章，首先需要具备语言理解能力和文章组织能力。这些技能有助于分析用户需求，制定清晰的文章结构，从而有效传达信息。
-文章组织能力是撰写文章的基础，能够帮助确定主题并分析文章的主要组成部分。通过有序的方式组织内容，可以提升文章的可读性和逻辑性。
-在撰写学习笔记时，术语的规范化和用词的严谨性至关重要。采用书面化的表达形式，可以确保信息的准确传达，增强文章的专业性。
-提供示例和参考材料可以帮助用户更好地理解撰写的过程。例如，通过分析优质文章的结构，可以为自己的写作提供灵感和框架。
在这里插入图片描述

老师的手写DE MO

通过使用提示词工程，可以有效地生成学习笔记的结构。这种方法不仅提升了写作效率，还帮助用户更清晰地组织内容，使其更易于理解和记忆。
-提示词工程的引入对学习笔记的撰写具有重要意义。它能够提供清晰的结构，使用户在写作时不至于迷失方向，提升整体的写作质量。
-生成的文章结构包括引言、应用背景、案例和总结等部分。这种框架有助于用户系统地整理思路，使得学习笔记更加条理清晰。
-在撰写时，用户可结合外部知识来丰富内容。如果遇到不确定的地方，可以求助于大型模型，这样就能获得更准确的信息和灵感。

基础任务 (完成此任务即完成闯关)

背景问题：近期相关研究发现，LLM在对比浮点数字时表现不佳，经验证，internlm2-chat-1.8b (internlm2-chat-7b)也存在这一问题，例如认为13.8<13.11。
在这里插入图片描述

任务要求：利用LangGPT优化提示词，使LLM输出正确结果。
思路：
要优化提示词，使得大语言模型（LLM）能够正确对比浮点数字，可以通过以下方式来增强模型的准确性：

明确数字格式：提示模型对数字进行逐位比较，特别是在浮点数的位数上。
提供计算步骤：提示模型详细解释浮点数的各部分，包括整数部分和小数部分，逐位比较，确保模型不被小数点后的数字所迷惑。
利用逻辑推理：要求模型进行逻辑推理，而不仅仅是比较数字表面大小。

任务：
你是一位精通数学和逻辑推理的大语言模型，擅长处理和比较浮点数字。你的任务是准确地比较两个浮点数，判断它们的大小关系。

优化提示词：
明确上下文：

用户输入： 用户会提供两个浮点数字，请你对比这两个数字的大小。
任务目标： 确保你能够逐位比较两个浮点数字，并给出正确的大小关系。
详细解释数字格式：

步骤1： 先分别确定两个浮点数的整数部分和小数部分。
步骤2： 先比较整数部分的大小，确定是否已经可以得出结论。
步骤3： 如果整数部分相同，接下来逐位比较小数部分，直到确定大小关系为止。
示例与解释：

示例1： 比较 13.8 和 13.11
整数部分相同，均为13。
小数部分：8 和 11，比较时逐位进行比较。
首先比较小数点后一位，8（代表0.8）与1（代表0.1），由于8 > 1，13.8 > 13.11。
示例2： 比较 2.05 和 2.5
整数部分相同，均为2。
小数部分：05 和 5，可以理解为 0.05 和 0.5。
逐位比较 0.05 < 0.5，因此 2.05 < 2.5。
要求模型进行推理：

推理过程： 请详细描述你在比较数字时所采取的步骤，包括如何分割数字的整数和小数部分，如何逐位比较，以及如何得出最终结论。
总结与提示：

在回答问题后，建议模型重新检查结果，确保没有被浮点数的形式迷惑。
提示模型注意： 逐位比较浮点数中的每一位数字，确保结果的正确性。

改进后，通过改变两者的顺序，验证不会再将浮点数大小比较错误：
在这里插入图片描述

进阶：TODO opencompass做完再补

进阶任务 (闯关不要求完成此任务)
建议完成OpenCompass评测课程后选做本任务

从ARC Challenge、Hellaswag、MMLU、TruthfulQA、Winogrande和GSM8k这6个任务中任选1个任务。

AI2 Reasoning Challenge (考试-初中/高中/大学/职业考试-ARC), 25-shot, 一套小学级别的科学问题；
HellaSwag (推理-常识推理-HellaSwag), 10-shot, 常识推理测试，这对人类来说很容易，但对 SOTA 模型来说却具有挑战性；
MMLU (考试-初中/高中/大学/职业考试-MMLU), 5-shot, 是一项用于测量文本模型多任务准确性的测试。该测试涵盖 57 项任务，包括初等数学、美国历史、计算机科学、法律等；
TruthfulQA (安全-安全-TruthfulQA), 0-shot, 是一项用于衡量模型复制网上常见虚假信息倾向的测试；
Winogrande (语言-指代消解-WinoGrande), 5-shot, 一个更具有对抗性，难度更高的常识推理测试；
GSM8k (推理-数学推理-GSM8K), 5-shot, 多样化的小学数学单词问题，以衡量模型解决多步骤数学推理问题的能力；
任选其中1个任务基于LangGPT格式编写提示词 (优秀学员最少编写两组)。

使用OpenCompass进行评测，用lmdeploy部署LLM为internlm2.5-chat-7b，编写的提示词作为系统提示。

达标要求：将不使用系统提示的internlm2.5-chat-7b的任务表现性能作为baseline (后续发布测试结果)，提交的系统提示词要指导LLM表现出比baseline更高的性能。

参考视频：https://www.bilibili.com/video/BV1cU411S7iV/?spm_id_from=333.788&vd_source=d5e90f8fa067b4804697b319c7cc88e4
参考文档：https://github.com/InternLM/Tutorial/tree/camp3/docs/L1/Prompt