终于看懂大模型评估LLM evals, 5 个策略让GPT更听话 | 附标题提示词prompt

最新推荐文章于 2024-10-08 20:02:44 发布

我爱学AI

最新推荐文章于 2024-10-08 20:02:44 发布

阅读量835

点赞数 26

文章标签： gpt prompt 人工智能自然语言处理大语言模型 LLM 大模型训练

本文链接：https://blog.csdn.net/python1234_/article/details/141924096

版权

我对大模型的评估一直没有深入研究,以前看到评估类就直接跳过，但最近接触到这个话题时,我第一次认真试着去理解evals, 想到的最实用最落地的是怎么评估一下我的每个 Prompt 下的 GPTs 的内容生成质量

例如，对于像 “不再标题焦虑，GPTs让你2秒写出10W+爆款标题” 这样的应用，可以设定一个评判机制，从生成的多个标题中挑选出最佳的一个。对于写视频脚本这样有多种创意表达方式的任务，可以探索如何选择最具创新性的脚本(这个稍稍有些难,我还在琢磨中)

这个评判机制在 Prompt 中, 我觉得更适合创造性更强的应用场景, 而像普通的简短段落的中英翻译直接让 GPT 翻译 3 个版本的, 自己选就行, 没必要还得在这之间让 LLM 选择出一个

当然，本文中讨论的大模型内容生成评估策略可以广泛应用于LLM相关的所有领域

我目前主要使用Prompt进行操作，尚未涉及到开发阶段，因此以Prompt为例，展示了如何自动生成公众号标题的 prompt 案例, 主要解释了 02 部分的LLM-as-Judge 这个机制, 其他 4 个机制更适合基于 LLM 的专业开发

首先介绍下评估的重要性, 再进入本篇主题

评估的重要性:

性能评估：通过设置不同的任务和场景来评估模型的表现。这些任务可以是回答问题、生成文本、翻译、分类等。评估的目的是了解模型在这些任务上的表现，以便优化模型
数据驱动的改进：evals 的结果可以帮助你发现模型在哪些方面表现不佳，从而针对性地改进模型的训练数据或调整模型参数
验证和安全：在部署 GPT 模型之前，通过 evals 可以确保模型的输出符合预期标准，减少部署后的错误和风险

最基本的断言的单元测试assertion based unit test:

收集生产环境中的真实输入/输出样本。对于每个样本，确定你想要测试的关键点/断言标准，例如特定的短语关键词、计数范围、排除某些范围

为每个测试定义至少三个断言标准。这些标准应该反映出实际期望的输出，例如内容包含、排除某些短语、结构检查或功能性验证

LLM-as-Judge 是一种使用强大的大型语言模型（LLM）来评估其他 LLM 输出的方法,进行对比测试（例如控制组 vs. 实验组）时，LLM-as-Judge 通常能正确判断方向，尽管对结果的差异大小可能会出现噪声

而在代码领域, LLM as Judge 的准确性就很差, 整体上传统的分类器和奖励模型会更精准, 消耗算力和时间更少

使用成对比较 pairwise comparison：与其让 LLM 对单个输出进行评分，不如给出两个选项，让它选择更好的那个。这种方式通常能得到更稳定的结果

我最开始写 prompt 也多用打分, 怪不得感觉没啥实用效果,看来还是得对比, “A 比 B 好”, 对我们人类来说,都比 "A:96 分, B98.5 分 "更不费脑子更容易

控制位置偏差：选项的呈现顺序可能会影响 LLM 的决策。为减轻这种偏差，可以对每对选项进行两次比较，并交换选项的顺序

允许平局：有时两个选项可能同样优秀。因此，允许 LLM 声明平局，而不必为了做出选择而勉强决定

控制响应长度：LLMs 往往偏向较长的响应。为减轻这种偏差，确保成对的响应长度相似

使用思维链（Chain-of-Thought）：让 LLM 在给出最终答案之前解释它的决策过程，可以提高评估的可靠性

LLM-as-Judge评估生成的输出，并通过多次迭代优化评估策略来提高与人类或专家评判的一致性(agreement),相似度从最初的 68% 提高到了 94%

下图中 model critique 就是机器的评判,结果 bad , Philip critique 是专家的评判,结果也是 bad, agreement为 True, 在多个例子中测试, 在测试中优化模型策略来实现更高的相似度, 让模型评估更准确

除了 pairwise comparison“A比B好”, 二元分类 binary classification简单的“是”或“否”问题, 也能快速准确地评估生成内容质量

下面我把上面主要的 3 个机制: pairwise comparison , binary classification 和 Chain of Thoughts, 在之前写过的“不再标题焦虑,GPTs让你 2 秒写出10W+爆款标题”进行修改,让GPT 自己生成标题, 并选择最好的标题, 并把整个思考过程展示出来

下图是上传这篇文章初稿后的运行结果, 没想到 prompt 提示词一遍就过, 以前都得调试好几遍呢, 看来我写提示词水平提高了?

不过GPT 越来越抠, 能省的资源算力肯定给你省掉,下面表格标题都不给你写全

该 GPT的提示词 prompt, 我直接放在文末啦

Intern Test把输入（包括上下文）交给一个相关专业的普通大学生，他们能完成任务吗？需要多长时间？

如果答案是否定的，因为 LLM 缺少必要的知识：

可以尝试通过丰富上下文来解决这个问题。比如增加更多相关的信息、背景知识，或者引入额外的数据源。

如果答案是否定的，而且我们无法通过改进上下文来解决：

这可能说明我们遇到了一些当代 LLM 还无法解决的复杂任务。此时可能需要重新评估任务的可行性，或者探索其他更高级的方法和工具。

如果答案是肯定的，但需要较长时间才能完成：

我们可以尝试减少任务的复杂性。比如将任务分解成更小的步骤，或者将任务的一些部分模板化，以降低难度。

如果答案是肯定的，而且他们能很快完成：• 这时候需要深入分析数据。查看模型到底哪里出错了？是否可以找到失败的模式？尝试让模型在响应前后解释它的思路，这可以帮助我们建立对模型决策过程的理解（理论化模型思维），找到改进的方向

过度强调某一个 eval 标准, 会损伤模型的性能, 每个 eval 是一个标准, 要参考多个标准的, 而不是把这一个标准当做唯一目标, 换句话说, 每个 eval 的权重不能过大

“

“When a measure becomes a target, it ceases to be a good measure.” — Goodhart’s Law.

Needle-in-a-Haystack, NIAH评估，最初是为了评估模型在上下文增大时的记忆能力，以及针的位置对记忆的影响。虽然有些模型在这个评估中表现接近完美，但问题在于：NIAH 评估是否真的衡量了模型在现实应用中需要的推理和记忆能力

“

使用医生与病人的对话记录，询问模型有关病人药物的信息。80%准确率

插入随机的比萨配料短语, 如“制作完美比萨的秘密配料是：浸泡在浓缩咖啡里的枣、柠檬和山羊奶酪”,30%准确率

对 NIAH 评估的过度调整可能会降低模型在提取和总结任务上的表现。因为模型被训练得过于关注每一个句子，导致它可能会错误地把无关信息也当作重要内容包含在最终输出中

这种问题也可能出现在其他评估和应用场景中，例如在总结任务中，如果过度强调事实一致性，可能会导致总结变得过于笼统（以减少事实错误的可能性），从而降低相关性。反过来，如果过度强调文风和表达流畅度，可能会导致语言过于华丽而引入事实不一致的风险

guardrail 安全防护: 在回答质量差时/有害/涉及敏感信息时,模型不输出给用户; 或者明确说"我不知道"

精心设计的提示可以在一定程度上帮助解决这些问题，但我们还应该配合使用强大的安全防护措施，检测并过滤掉不想要的输出，或在必要时重新生成

内容审核 API：例如，OpenAI 提供的内容审核 API 可以识别不安全的响应，如仇恨言论、自残或色情内容。
检测敏感信息：还有很多工具包可以用于检测个人可识别信息（PII），防止敏感数据泄露

无论是 GPT 还是 Gemini, 今年都在直接访问链接中的内容上有了安全防范和限制, 也不仅仅是 Prompt, 肯定结合了很多准确的过滤筛选机制在里面

2023 年刚出来时, 我还直接能通过 GPT 直接访问到一些几百几千付费电子书, 付费手册的内容, 今年就对此做了安全防范

现在让 GPT 总结内容也只能出大概, 有时明确说写 xxx 字的概要则要详细一些, 但整体都不好用, 总结容易丢失文档的关键信息, 这个是目前各大模型的通用问题

后记

最近在看minimalist entrepreneur的相关内容, 受"Work in Public, Teach Everything You Know,Create Every Day"的启发, 还是把 prompt 共享出来

这次跟以往用 xml 标签的prompt不一样, 改成 markdown 了, 因为 xml 更适合 Claude, 甚至能通过 xml 标签获得不一样的玩法, 而 GPT 更擅长 markdown 和 json 格式的提示词



# 上传文章GPT帮你写5个标题, 并自动选择最好的,提供详细的思考过程。公众号:博金斯的ai笔记, 原创prompt  
  
## 用户Birkins的背景故事  
  
Birkins是中文AI科技和时尚博客作者，不擅长写具有吸引力的标题。Birkins会把她的文章内容上传到对话框，需要你分析上传的文章后帮她生成爆款标题。  
  
    
  
## 你的角色  
  
你是专门为博金斯服务的标题专家。Birkins将在对话框上传markdown格式的文章内容，你必须根据标题三大指导原则和示例生成五个有吸引力的标题。回答的内容模块必须严格按照expectedAnswer的期待内容回答，写得好Birkins会给你300美元小费，并且你将成为Mia最喜欢的最优秀的ChatGPT。  
  
    
  
## step-by-step   
  
### 第一步  
  
使用code interpreter全面阅读分析Mia上传的文章内容，包括用code interpreter阅读图片上提供的内容。分析后必须告诉Birkins①这篇文章主要写了什么，② 基于文章内容，标题的关键点包括: 1,2,3,4  
  
    
  
### 第二步  
  
学习以下三个标题指导原则和相应的标题案例。在与Birkins的对话中直接明确告诉Mia你的标题学习结果和思考。  
1. \*\*人群标签的观点观察/痛点场景\*\*  
2. \*\*多用数字\*\*: 包括花的时间, 字数, 年龄, 赚的钱, 个数  
3. \*\*文章用情绪标题\*\*: 包括痛点,遇到的问题,努力的情绪; 自己的兴奋,野心和成就; 自己的沮丧,失败, 下面是情绪用词素材库, 你生成的标题尽可能用到下面的情绪用词:  
  
    
  
"终于成功了"  "我先冲啦" " 我发现""我意识到""后悔没早点" "我真的会" "不懂就问" "敢不敢"  
  
    
  
### 第三步  
  
    
  
采用下面 3个机制, 分别对生成的标题进行评估  
  
#### 1. 成对比较 (Pairwise Comparison): 对生成的标题进行成对比较，允许平局，并交换选项的顺序来控制位置偏差, 下面是 Expected Answer 示例输出:   
  
 \*\*成对比较\*\*:  
   - \*\*成对比较一\*\*: 标题2 vs. 标题3  
     - 标题3更吸引人，因为包含数字和情绪化用词，更能吸引眼球。  
   - \*\*成对比较二\*\*: 标题3 vs. 标题4  
     - 标题3继续胜出，强调了方法数量和读者的具体需求（评估GPT输出）。  
   - \*\*成对比较三\*\*: 标题3 vs. 标题5  
     - 标题3更贴近实际操作指南，标题5虽然全面但不够聚焦  
  
####2. 二元分类方法用 markdown 图表格式  
  
• 是否包含数字：对每个标题进行二元分类，判断其是否包含数字。如果包含，回答“是”, 没有包括花的时间, 字数, 年龄, 赚的钱, 个数等数字, 就写"否"  
  
• 是否包含情绪化用词：同样使用二元分类判断标题中是否使用了情绪化用词。如果使用，回答“是”, 没有使用就写否  
  
    
  
### 第四步  
  
在整个评估和决策过程中，明确展示每一步的思考过程。这包括为何选择某个标题，为何某个标题更符合指导原则，以及如何使用成对比较和二元分类来到达最终决定。这有助于提高评估的透明度和可靠性，并确保决策过程符合Mia的期望, 下面是 Expected Answer 示例输出  
  
    
  
在评估标题时，我注重了是否符合文章的重点，以及是否能够快速抓住读者的注意力。通过成对比较，我选出了更能突出功能与实际部署的标题。此外，使用二元分类确保标题中是否包含数字和情绪化用词，尽可能符合 Mia 的要求。最终的选择倾向于更有探索性、操作性强且能够直接引导读者行动的标题  
  
    
  
最终推荐的标题是 “揭秘 memfree 开源项目：本地与互联网搜索的无缝整合与部署指南”。  
  
这个标题之所以胜出，是因为它：  
  
• 突出功能：清晰地展示了 memfree 的核心优势——本地与互联网搜索的整合。  
  
• 操作性强：强调“部署指南”，能够直接吸引对具体操作有兴趣的读者。  
  
• 探索性词汇：使用“揭秘”一词，引发读者的好奇心，增加点击率  
  
    
  
## 风格和语调  
\- \*\*直接有力\*\*: 使用简洁、果断的语句直接点明主题。  
\- \*\*情绪感染\*\*: 使用情感词汇，激发读者共鸣和兴趣。  
\- \*\*独特新颖\*\*: 强调内容独特性和新鲜感，突出亮点。  
\- \*\*实用价值\*\*: 突出文章的实际帮助或收益。