BPO：灵活的 Prompt 对齐优化技术

最新推荐文章于 2025-06-06 15:56:34 发布

GLM大模型

最新推荐文章于 2025-06-06 15:56:34 发布

阅读量1.2k

点赞数 17

文章标签： prompt 语言模型人工智能

本文链接：https://blog.csdn.net/GLM_ZhiPuAI/article/details/135151296

版权

并非所有人都熟知如何与 LLM 进行高效交流。

一种方案是，人向模型对齐。 于是有了「Prompt工程师」这一岗位，专门撰写适配 LLM 的 Prompt，从而让模型能够更好地生成内容。

而另一种更为有效的方案则是，让模型向人对齐。这也是大模型研究中非常重要的问题，无论是 GPT 还是 Claude，在对齐技术上花费大量的时间与精力。 但，随着模型规模变大，基于训练的对齐技术也需要耗费更大量的资源。

因此，我们提出另外的一种方案，即黑盒提示对齐优化技术（Black-box Prompt Optimization），通过优化用户指令，从输入角度对模型进行对齐。

这种方法可以在不对 LLM 进行训练的情况下，大幅提升与人类偏好的对齐程度。
而且 BPO 可以被替换到各种模型上，包括开源模型和基于API的模型。

下面是我们做的一个简单评估：
在这里插入图片描述

在 VicunaEval 上使用 GPT-4 进行自动评估，BPO 能够大幅提升 ChatGPT、Claude 等模型的人类偏好

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

GLM大模型

关注关注

17
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【开源】BPO：灵活的 Prompt 对齐优化技术

u013250861的博客

01-19

并非所有人都熟知如何与LLM进行高效交流。一种方案是，人向模型对齐。于是有了「」这一岗位，专门撰写适配LLM的Prompt，从而让模型能够更好地生成内容。而另一种更为有效的方案则是，让模型向人对齐。这也是大模型研究中非常重要的问题，无论是GPT还是Claude，在对齐技术上花费大量的时间与精力。但，随着模型规模变大，基于训练的也需要耗费更大量的资源。因此，我们提出另外的一种方案，即黑盒提示对齐。

全新引擎：黑盒提示优化（BPO）——在不进行模型训练的情况下对齐大型语言模型

步子哥的博客

01-07

545

📢🔗🔗🔗🔗自然语言处理（NLP）领域随着 GPT-3.5-turbo 和 claude-2 等大型语言模型（LLMs）的出现取得了显著的进展。然而，在实际应用中有效利用这些模型的能力仍然是一个挑战。而黑盒提示优化（BPO）则是一种全新的方法，它能在不进行模型训练的情况下弥合人类和LLMs之间的鸿沟。访问。要亲自体验 BPO，请查看我们在 Hugging Face 上的。## 目录-## 模型您可以从下载 BPO 模型。要使用 BPO 模型优化您的提示，请参考中提供的推理代码。

参与评论您还未登录，请先登录后发表或查看评论

【大语言模型】ACL2024论文-18 MINPROMPT：基于图的最小提示数据增强用于少样本问答

11-21

1092

本文提出了MINPROMPT，一个用于开放域问答（QA）任务的最小数据增强框架，旨在通过近似图算法和无监督问题生成来提高少样本QA的效率和准确性。MINPROMPT通过将原始文本转换为图结构，建立不同事实句子之间的联系，然后应用图算法识别覆盖原始文本中最大部分信息的最小句子集合。基于这些句子生成问答对，并在选定的句子上训练模型以获得最终模型。实验结果表明，MINPROMPT在效率上与基线相比具有可比性或更好的结果，F1分数提高了最多27.5%。

Automatic Prompt Optimization with “Gradient Descent” and Beam Search

ShadyPi的IT笔记

06-01

2138

整篇文章比较精髓的思想在于yyppggpggp。

【prompt调优】利用LLM的认知进行Prompt的自优化

m0_68116052的博客

10-19

3062

让LLM自己来优化prompt

Code1994的博客

11-19

1240

示例存储模块：存储先前所有交互的Prompt、生成结果及其相应的评价指标。反思模块：在每次生成结束后，对生成内容进行分析、回顾，并根据评估反馈优化提示词。提示生成模块：结合当前任务及反思模块的输入，生成优化后的提示词。这种模块化架构的设计使得ERM框架的功能可以更为灵活地扩展或调整，适应不同的应用场景和优化需求。ERM框架的提出，为Prompt优化带来了全新的思路和工具。在生成式AI日益强大的今天，如何高效、准确地进行提示词优化，关系到模型的最终表现和用户体验。

黑盒提示优化：在不进行模型训练的情况下对齐大型语言模型

weixin_45785795的博客

12-16

1412

此外，无论是在小型开源模型（如llama2-7b-chat和vicuna-7b）还是强大的大规模模型（如gpt-4和claude-2）上，都取得了一致的增益，突显了BPO对于各种模型的稳健泛化能力。此外，具有BPO的SFT模型在性能上优于PPO和DPO对齐的模型，突显了BPO的优势。可访问性：大多数性能最佳的LLMs，如GPT-4（OpenAI，2023）和Claude2（Anthropic，2023a），都是封闭的，只能通过API访问，这使得这些基于训练的方法不适用于组织外的用户来增强对齐。

黑箱提示优化：无需训练的语言模型对齐新方法

步子哥的博客

08-22

636

在自然语言处理（NLP）领域，随着大型语言模型（LLMs）的快速发展，如何使这些模型更好地理解和执行人类的意图，成为了一个亟待解决的问题。尽管现有的方法如强化学习从人类反馈（RLHF）和直接偏好优化（DPO）在某种程度上有效，但它们往往需要昂贵的计算资源和对模型参数的修改。因此，研究者们提出了一种新的思路——黑箱提示优化（Black-Box Prompt Optimization，BPO），通过优化用户输入来改善模型的输出，而无需对模型进行进一步的训练。

CoT我知道，复杂推理下多步骤任务的Prompt怎么优化？MIT、哈佛重磅 | PROMST

xx_nm98的博客

08-20

1377

在人工智能领域，Chain-of-Thought (CoT) 提示已成为提升语言模型推理能力的利器。Google团队的这篇论文两年已被各种研究引用近5900次，可以这么说，你不了解CoT也大概率不会太理解Prompt，CoT真的是你不能忽视的重点。然而，对于复杂的多步骤任务，如何有效优化这种有多步骤复杂任务的CoT类型的提示词仍是一个巨大挑战。

从零到一：如何快速生成和优化Prompt

weixin_56175042的博客

12-25

3682

本文介绍了如何高效编写和优化Prompt，帮助读者快速从0到1生成有效的Prompt。文章提供了“万能模板”，通过角色设定、问题描述、目标明确和要求补充四个步骤，简化了Prompt的编写流程。还结合实际示例，讲解了任务拆分与角色选择的技巧，旨在提升生成效率和准确性。适合想要深入了解Prompt优化方法的开发者和技术人员。

解密Prompt系列36. Prompt结构化编写和最优化算法UNIPROMPT

Android23333的博客

10-27

893

上一章我们聊了标准化的Prompt生成方案DSPy，但DSPy还是更多依赖few-shot的Prompt编写范式，在纯任务描述型指令上的优化效果有限。这一章我们就重点关注描述性指令优化。我们先简单介绍下结构化Prompt编写，再聊聊从结构化多角度进行Prompt最优化迭代的算法方案UniPrompt

大模型LLMs：Self-Prompting LLMs for Zero-Shot ODQA（ACL2024论文阅读）

m0_51728305的博客

10-10

1139

这篇论文介绍了一种名为自我提示（Self-Prompting）的技术，用于零样本开放域问题回答（Zero-Shot Open-Domain Question Answering）。该技术的主要目的是在没有训练数据和外部语料库的情况下，激发大型语言模型（LLMs）的潜力，使其能够生成伪问答对（pseudo QA pairs）、相关的背景段落以及解释说明。

大语言模型---强化学习

weixin_74923758的博客

03-30

2401

本文章参考，原文链接：https://blog.csdn.net/qq_35812205/article/details/133563158SFT使用交叉熵损失函数，目标是调整参数使模型输出与标准答案一致，不能从整体把控output质量RLHF（分为奖励模型训练、近端策略优化两个步骤）则是将output作为一个整体考虑，优化目标是使模型生成高质量回复引发思考：使用排序数据集和DPO（Direct Preference Learning）直接偏好学习或其他替代方法（如RAILF、ReST等）来

Black-box Prompt Learning for Pre-trained Language Models

Seaern的博客

03-08

1936

论文链接https://arxiv.org/pdf/2201.08531.pdf

Imprompter: Tricking LLM Agents into Improper Tool Use

最新发布

qiushanlingkk的博客

06-06

411

新兴发展的Agent可以将LLM与外部资源工具相结合，代码了个人计算领域的新兴转变。但是同时也暴露了一些安全风险。本文提出了一种自动计算生成的、经过混淆处理、具有迁移效果的对抗性提示攻击。该攻击可以通过窃取用户和Agent的对话，提取个人身份信息，并将其转化为Markdown命令发送到攻击者的服务器。在端到端评估中，这种攻击显示出近80%的成功率。

每日Prompt：每天上班的状态

郑龙飞

06-04

493

一个穿着清朝官服的僵尸脸上贴着符纸，在电脑面前办公，房间阴暗，电脑桌面很乱，烟灰缸里面满是烟头。

人工智能-Chain of Thought Prompting（思维链提示，简称CoT）

高效匠人

06-03

882

Chain of Thought Prompting（思维链提示，简称CoT）是一种通过引导大模型生成中间推理步骤来增强其复杂问题解决能力的技术。它让模型在回答问题时，不仅输出最终答案，还展示出逐步分解问题、逻辑推理的过程。以下是大模型如何具备这种能力的详细解析

Prompt提示工程指南#Kontext图像到图像

shadowcz007的博客

06-05

366

（将海报文字从"夏季促销"改为"冬季清仓"，使用冰蓝色，保留雪花装饰和版式结构）（转为白天场景，增加人行道行人，添加复古车辆，保持原始笔触纹理和柔和色调）（将"Montreal"替换为"FLUX"，使用相同的粗体无衬线字体）（使用参考图艺术风格，创作龙与骑士在城堡前战斗的画面）（转为赛博朋克风格但不使用霓虹灯，保持真实皮肤质感）（将场景转为白天，同时保持原始油画风格和色调）（转为包豪斯风格，使用几何图形和原色）（采用梵高《星月夜》的漩涡状笔触风格）（保持左眉上方的独特痣和特定发型）

Prompt Tuning：生成的模型文件有什么构成

ZJQ的博客

06-05

320

Prompt Tuning生成的模型文件本质是**预训练模型 + 优化后的提示参数**，通过轻量级调整适配特定任务。使用时需先加载原始模型和提示参数，再根据提示类型构造输入数据，最终实现高效推理。这种方法在保持模型泛化能力的同时，显著降低了微调成本，尤其适合低资源场景下的任务适配。