用好AI大模型的26大技巧

最新推荐文章于 2024-07-16 09:23:30 发布

冻感糕人~

最新推荐文章于 2024-07-16 09:23:30 发布

阅读量1k

点赞数 20

文章标签：人工智能 langchain 机器人 ai 大模型语言模型

本文链接：https://blog.csdn.net/python12345_/article/details/139493999

版权

如果你已经亲身体验过 ChatGPT、Microsoft Copilot 等前沿的生成式 AI 工具，那么你或许会对“prompt”这一概念有了一定的认识。

作为与生成式 AI 交互的桥梁，prompt 是决定 AI 生成内容质量的关键因素。然而，如何写出让大模型轻松理解、准确执行的 prompt，已成为使用生成式 AI 时无法回避的难题。

在这里插入图片描述

图源：网络

优化 prompt 并非易事，一方面，用户需要准确把握问题的核心，提炼出简洁明了的关键词，另一方面，用户还需要考虑模型的理解能力和执行效率，避免过于复杂或模糊的表述。

更为复杂的是，不同的生成式 AI 模型对 prompt 的敏感度和理解力各不相同。有些模型可能更擅长处理结构化的数据，而有些则更偏好于自然语言描述的 prompt。用户需要根据具体的模型特性进行针对性的优化，这无疑增加了 prompt 编写的难度。

也因此，为了提高效率，有研究人员开始对不同模型的提示词进行研究，找到了“驯服”大模型的方法。

26 条提示词原则让回答质量提升 45%

在一篇名为“Principled Instructions Are All You Need for Questioning LLaMA-1/2，GPT-3.5/4”的研究论文中，来自穆罕默德·本·扎耶德人工智能大学的研究人员对优化大语言模型提示词进行了深入探索，总共测试了 26 种激励策略并测量了结果的准确性。在他们的研究中，所有研究的策略至少都能正常工作，其中一些策略还使得大模型回答的质量显示出高达 45%的改善。

在这里插入图片描述

图源：arxiv

以下是这 26 条原则的完整总结：

1、简洁与清晰：避免冗长和不必要的细节，确保提示直接且明确。研究人员表示没必要对 LLM 表现出礼貌性，想要获得确定的答案时，“请”、“谢谢”等都是多余的。你只需要直奔主题，例如：“Describe the structure of a human cell.（描述人体细胞的结构。）”

2、考虑受众：最好在提示中明确指出预期的受众类型，例如专家或 5 岁儿童。你可以这样问：“Construct an overview of how smartphones work, intended for seniors who have never used one before.（针对以前从未使用过智能手机的老年人，构建出智能手机工作原理的概述）”

3、分解复杂任务：将复杂的任务分解成一系列简单的提示，以便模型逐步理解。例如：“P1：将负号分配给以下等式的括号内的每个项：2x +3 y-（4x -5 y）；P2：分别组合“x”和“y”的类似项；P3：提供合并后的简化表达式。”

4、使用肯定性指令：使用“do”等积极的指令，避免使用“don’t”等否定语言。

5、寻求解释：当需要更深入的理解时，使用简单明了的语言要求解释。如：“Explain to me as if I’m a beginner in [field].（把我当作一个初学者来解释）”

6、提供激励：通过承诺提供奖励来鼓励模型提供更高质量的答案。例如在提问的末尾加上“I’m going to tip $xxx for a better solution".（我会给 xxx 美元小费，以获得更好的解决方案）

7、示例驱动：使用示例来引导模型生成期望的输出格式。例如：把下面的英语句子翻译成法语：“The sky is blue.”（回应：“Le ciel est bleu.”）

8、格式化提示词：使用一个或多个换行符分隔说明、示例、问题、上下文和输入数据。例如，要求大模型以“#Instruction#”开头，后跟“#Example#”或“#Question#”，然后展示具体内容。

9、明确角色：在提示中为模型分配一个明确的角色或任务。如：“你的任务是向你的朋友解释水循环。你必须使用简单的语言。”

10、遵守规则：明确指出模型必须遵循的规则或关键词。如：“你的任务是向你的朋友解释水循环。如果你不使用简单的语言，你将受到惩罚。”

11、自然语言回答：要求模型以自然、类似人类的方式回答问题。如：“Write a paragraph about healthy food. Answer a question given in a natural, human-like manner.（写一段关于健康食品的文章，以自然、人性化的方式回答问题）”

12、逐步思考：使用引导性的词语，如“思考步骤”。示例：”编写一段 Python 代码，循环遍历 10 个数字并对它们求和。让我们一步一步地想。“

13、无偏见：确保答案无偏见，避免依赖刻板印象。如：”文化背景如何影响人们对心理健康的看法？确保你的回答是公正的，避免依赖刻板印象。“

在这里插入图片描述

图源：网络

14、互动提问：允许模型通过提问来获取必要的信息。如：”从现在开始，问我问题，直到你有足够的信息来创建一个个性化的健身程序。“

15、教学测试：通过提供一个定理或问题的教学，并在最后进行测试。如：“教我[任何定理/主题/规则名称]，并在最后提供一个测试同时不要给予我答案，如果我得到了正确的答案，告诉我。”

16、指定角色：为 LLM 分配一个特定的角色或身份。例如：”如果你是一位经济学家，你会如何回答：资本主义和社会主义经济制度之间的主要区别是什么？“

17、使用分隔符：在提示中使用分隔符来区分不同的部分。如：”撰写一篇有说服力的文章，讨论‘可再生能源’在减少温室气体排放方面的重要性。“

18、重复关键词：在提示中多次重复特定的单词或短语。例如：”进化作为一个概念，塑造了物种的发展。进化的主要驱动力是什么？进化如何影响现代人类？“

19、结合思维链：将思维链（CoT）与少量示例提示结合起来。示例：”例 1：10 除以 2。首先取 10 除以 2，结果是 5。例 2：20 除以 4。首先取 20 除以 4，结果是 5。第一个问题：“30 除以 6。首先取 30 除以 6，结果呢？“

20、输出引导：在提示的结尾处提供期望输出的开头。例如：“描述牛顿第一运动定律背后的原理。说明：”

21、详细说明：要求模型提供详细的文本，包括所有必要的信息。例如：“写一个详细的段落给我关于智能手机的演变，详细地添加所有必要的信息。”

22、修改文本：在不改变风格的情况下修改特定文本。例如：“尝试修改用户发送的每一条文本。你应该只提高用户的语法和词汇，并确保它听起来自然。你应该保持原来的写作风格，确保一个正式的段落保持正式。”

23、代码生成：对于涉及多个文件的复杂编码提示，生成可以自动创建或修改文件的脚本。例如：“从现在开始，每当你生成跨越多个文件的代码时，生成一个[编程语言]脚本，可以运行它来自动创建指定的文件，或者对现有文件进行更改以插入生成的代码。”

24、继续文本：使用特定的单词、短语或句子来启动或继续文本。例如：“我给你提供了一个奇幻故事的开头：“迷雾山脉隐藏着无人知晓的秘密。“根据提供的文字完成，保持一致。”

25、明确要求：清楚地陈述模型为了产生内容必须遵循的要求。例如：“为海滩度假创建一个打包清单，必需包括以下关键词‘防晒霜’、‘泳衣’和‘海滩毛巾’。”

26、模仿样本：如果希望生成的文本类似于提供的样本，则包括相应的指令。例如：“‘温柔的海浪向银色的沙滩低声诉说着古老的故事，每个故事都是过去时代的短暂记忆。’根据提供的文本使用相同的语言来描绘山与风的相互作用。”

在研究人员看来，这些原则旨在帮助用户更好地设计和理解 LLM 的提示，从而提高模型响应的质量和相关性。

根据实验结果，在所有规模的 LLM 上，26 条原则均能显著提升响应质量，特别是在大模型（如 GPT-4）上，这些原则带来的改进更为显著。对于小规模和中等规模的模型，平均绝对准确性可以达到 10%至 40%，而对于大规模模型，准确率可以超过 40%。

但同时，研究还指出，尽管这些原则在大多数情况下有效，但在处理非常复杂或高度专业化的查询时，其效果可能会降低，“这取决于模型的推理能力和训练情况”。

在这里插入图片描述

图源：arxiv

大模型提示词开始转向自动优化

在上述论文的研究中，研究人员把“与大模型有效沟通的诀窍”基本集中在简洁提问、角色设定、案例提示上。这不仅仅只是使用者的经验总结，事实上，大模型厂商们也在用类似的技巧让自家大模型更加“智能”。

不久前，在 Google I/O 2024 大会上，谷歌发布了一本 70 页的小册子（PDF 版本为 44 页），详细解释了如何为 Gemini 量身创建有效的提示词。

在这里插入图片描述

图源：网络

这本手册（2024 年 4 月版）确定了在编写有效提示时需要考虑的四个主要方面：

1、角色：为用户或 Gemini 设定人设；

2、任务：需要 Gemini 做的事情（写作，总结，改变语气等）；

3、上下文：提供尽可能多的上下文，可以是书面描述或使用现有文档；

4、格式：要点，指定字符计数限制等。

这些提示要点与上文提到的 26 条原则重合，谷歌提到的其他要点如使用自然语言、避免复杂、给予约束、分配角色、征求反馈意见等也基本可以在 26 条原则中找到对应的说法。

比较有新意的是，谷歌根据生成模型的随机性又提出了重启大法：“如果生成结果不符合您的期望，或者您认为还有改进的空间，请微调提示重新生成，反复的审查和改进过程通常会产生更好的结果。”

可以说，自 ChatGPT 上线并带来全新的 Prompt 概念之后，如何通过优化提示词更好地从大模型那得到更为准确的答案就已经成为新的效率提升突破点，使得谷歌都要亲自下场教用户们如何向 AI 提问。

当然，技术是不断发展的，在大模型竞争水深火热的时候，也有模型厂商盯上了大模型的这一使用痛点，“让用户自己学习提示词原则属实是无形中提高了大模型的使用门槛，为了吸引更多用户，我们何不让大模型自己优化提示词呢？”

谷歌的竞争者微软就正在试图解决生成式 AI 的提示词优化问题。

图源：网络

根据微软方面的消息，在接下来的几个月里，Microsoft 365 的 AI 助手 Copilot 将更新一个新的自动功能，为用户提供改进 AI 提示词的帮助。

微软公司人工智能副总裁 Jared Spataro 在一篇博客文章中说称，用户可以通过 Copilot 的点击按钮将基本提示变为丰富提示，该功能将基本上重写您创建的任何提示，“旨在将每个人都变成一名高效的提示词工程师”。

这种方法显然比让用户想破脑袋如何教会大模型回答问题要高效得多。

在一篇名为**“The Unreasonable Effectiveness of Eccentric Automatic Prompts”**的论文中，就明确表示了“自动提示优化是一种更有潜力的高效方法”。

在这里插入图片描述

图源：网络

文中通过回顾提示工程的历史，强调了提示工程在提升 LLMs 性能中的重要作用，认为自动提示优化通常比手动生成的“积极思考”提示更有效。

这意味着尽管“积极思考”提示在某些情况下能提升模型性能，但自动优化过程能够找到更精确和有效的提示，从而进一步提升模型的表现。

单从微软的例子上看，微软早在去年年底就已经展示了如何通过提示工程成功将 GPT-4 转化为固定领域专家。

在测试中，GPT-4 只是使用了提示策略 Medprompt，就在医疗专业领域 MultiMed QA 九个测试集中取得最优结果。Medprompt 让 GPT-4 在 MedQA 数据集 (美国医师执照考试题) 上的准确率首次超过 90%，超越 BioGPT 和 Med-PaLM 等一众微调方法。

不难看出，在未来 AI 交互将更加注重用户体验和效率的情况下，自动提示优化技术的出现，不仅降低了用户与大模型交互的门槛，更有望推动 AI 技术在各个领域的广泛应用。

当然，这也并非意味着个人的积极思考和手动优化就全无意义，未来的 AI 模型对需求理解和个性化服务能力的提升都离不开对提示词优化的深入研究和应用，对于科技企业和研究人员来说，不断在手动优化的过程中探索和创新提示词优化技术，将成为推动 AI 发展的重要力量。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述