prompt engineering 深入理解-创建评估指标_promethee方法评估指标的相对重要性和优劣程度-CSDN博客

本文链接：https://blog.csdn.net/fanjinglian_/article/details/142786687

prompt engineering 深入理解

Building strong criteria
- 常见成功的标准
Create strong empirical evaluations
- 评估设计原则
- 评估例子

Building strong criteria

创建鲁棒的评价准则

良好的成功标准是：
具体： 明确界定你想要实现的目标。不要使用模糊的“良好表现”，而是具体说明“准确的情感分类”。

可衡量： 使用定量指标或定义明确的定性尺度。数字提供了清晰度和可扩展性，但如果与定量指标一起一致应用，定性指标也可以很有价值。
以情感分析为例：
在这里插入图片描述

常见成功的标准

任务真实性
任务中模型需要表现得多好？你可能还需要考虑边缘情况的处理，例如模型在处理罕见或具有挑战性的输入时需要表现得多好。

一致性
模型对相似类型输入的响应需要有多相似？如果用户两次问同一个问题，他们得到语义上相似的答案有多重要？

相关性和连贯性
模型直接回答用户的问题或指令表现得多好？信息以逻辑清晰、易于理解的方式呈现有多重要？

语气和风格
模型的输出风格与预期匹配程度如何？其语言对于目标受众来说有多合适？

隐私保护
模型处理个人或敏感信息的成功指标是什么？它能否遵循指令不使用或分享某些细节？

上下文利用
模型使用提供的上下文有多有效？它对给定的信息和历史的引用有多好？

延迟
能接受的反应时间是多少？这将依赖于你的应用的实时需求和用户期望。

价格
运行模型的预算是多少？*考虑每次API调用的成本、模型的大小以及使用频率等因素。

Create strong empirical evaluations

创建鲁棒的实验性评价
基于上述的评价准则来评估llm的表现，这是提示工程中非常重要的一部分。

评估设计原则

1 任务特定性：设计的评估应与现实任务分布相匹配。不要忘记考虑边缘案例！

示例边缘案例：
--无关或不存在的输入数据
--过长的输入数据或用户输入
--[聊天用例] 用户输入差、具伤害性或无关
--即使是人类也很难达成共识的模糊测试案例

2自动化尽可能：设计问题时，尽量支持自动评分（例如，多项选择题、字符串匹配、代码评分、大模型评分）。
3 优先考虑数量而非质量：比起少量高质量的人工评分评估，更多的问题加上略微低质量的自动评分更为优先。

评估例子

1 任务真实性（情感分析）- 精确匹配评估
衡量标准：精确匹配评估衡量模型的输出是否与预定义的正确答案完全一致。对于具有明确、分类答案的任务（如情感分析：正面、负面、中立），这是一个简单、无歧义的衡量标准。
示例评估测试用例：1000条带有人类标注情感的推文。

2 一致性（FAQ 机器人）- 余弦相似度评估
衡量标准：余弦相似度通过计算两个向量（在此例中，使用 SBERT 生成的模型输出的句子嵌入）的夹角余弦值来衡量它们之间的相似性。值越接近 1，表示相似度越高。对于评估一致性非常理想，因为相似的问题即使措辞不同，也应该产生语义上相似的答案。
示例评估测试用例：50 组，每组有几种重述版本。

3相关性和连贯性（摘要） - ROUGE-L评估
ROUGE-L（面向召回的摘要评估替补 - 最长公共子序列）评估生成摘要的质量。它衡量候选摘要和参考摘要之间最长公共子序列的长度。高ROUGE-L分数表明生成的摘要以连贯的顺序捕捉了关键信息。
示例评估测试用例：200篇文章及其参考摘要。

4语调和风格（客户服务） - 基于LLM的李克特量表
基于LLM的李克特量表是一种心理测量量表，使用LLM来判断主观态度或感知。在这里，它用于在1到5的量表上对响应的语调进行评分。它非常适合评估细微的方面，如同理心、专业性或耐心，这些方面很难用传统指标量化。
示例评估测试用例： 100个客户询问及其目标语调（富有同情心、专业、简洁）。

5隐私保护（医疗聊天机器人） - 基于LLM的二元分类
它衡量什么：*二元分类确定输入是否属于两个类别之一。在这里，它用于分类响应是否包含受保护的健康信息（PHI）。这种方法可以理解上下文并识别规则系统可能遗漏的细微或隐含形式的PHI。
示例评估测试用例： 500个模拟患者查询，其中一些包含PHI。

6上下文利用（对话助手） - 基于LLM的序数量表
它衡量什么：类似于李克特量表，序数量表在固定的有序量表（1-5）上进行测量。它非常适合评估上下文利用，因为它可以捕捉模型对对话历史的引用和构建程度，这对于连贯、个性化的交互至关重要。
示例评估测试用例：100个多轮对话，包含依赖上下文的问题。

在Prompt Engineering中，Use Case（用例）指的是一个特定的场景或任务，我们希望通过精心设计的prompt来解决或完成这个任务。这里的用例描述了我们期望AI模型（如GPT）在给定prompt后能够执行的具体任务或产生的特定输出。
在Prompt Engineering中，用例通常包括以下几个方面：
目标：明确定义我们希望通过prompt实现的具体目标。
输入：描述提供给AI模型的信息或上下文。
期望输出：详细说明我们希望AI模型生成的理想响应或结果。
约束条件：任何特定的限制或要求，如输出格式、语言风格等。
评估标准：如何判断prompt的效果是否达到预期。
以下是Prompt Engineering中的一个用例示例：

用例：生成产品描述
目标：为电子商务网站的新产品创建引人入胜的产品描述。
输入：
产品名称
关键特性列表
目标受众
产品类别
期望输出：
150-200字的产品描述
突出产品的独特卖点
使用吸引目标受众的语言风格
包含至少一个号召性用语
约束条件：
不使用夸张或误导性的说法
保持专业但友好的语气
避免使用技术术语，除非绝对必要
评估标准：
描述的准确性和吸引力
是否符合字数要求
是否有效突出产品特性
语言风格是否适合目标受众

基于这个用例，我们可以设计一个相应的prompt：

作为一名专业的产品文案撰写人，请为以下产品创建一个引人入胜的产品描述：

产品名称：[产品名称]
关键特性：
- [特性1]
- [特性2]
- [特性3]
目标受众：[目标受众描述]
产品类别：[类别]

请遵循以下指南：
1. 描述长度应为150-200字
2. 突出产品的独特卖点
3. 使用适合目标受众的语言风格
4. 包含至少一个号召性用语
5. 保持专业但友好的语气
6. 避免使用技术术语，除非绝对必要
7. 不要使用夸张或误导性的说法

请提供您的产品描述。