AI的“心理医生“来了:无需大模型训练就能提升对话质量

大语言模型(LLM)的出现无疑是人工智能领域近年来最重要的突破之一。从GPT到ChatGPT,再到最新的GPT-4,这些模型展现出了惊人的自然语言理解和生成能力,在各个领域都引发了广泛的应用。然而,即便是最先进的LLM,在与人类进行对话时也常常会出现理解偏差、答非所问等问题。如何让AI更好地理解人类意图,产生更符合人类期望的回答,一直是学界和业界关注的重点问题。

传统方法:训练模型以适应人类

目前,主流的解决方案是通过进一步训练模型来提升其对齐程度(alignment)。比如,OpenAI采用的人类反馈强化学习(RLHF)方法,就是通过人工标注大量对话样本的优劣,训练奖励模型和策略模型,从而让ChatGPT能够产生更符合人类偏好的回答。还有一些方法如直接偏好优化(DPO)等,也是类似的思路。

这些方法虽然取得了不错的效果,但也存在一些明显的缺陷:

  1. 效率低下。随着模型规模的不断扩大,训练成本呈指数级增长。特别是强化学习算法本身就不太稳定,在大模型上进行微调更是难上加难。

  2. 可访问性差。目前表现最好的一些模型如GPT-4、Claude-2等都是闭源的,只能通过API调用。这意味着普通用户根本无法对模型进行进一步训练来提升对齐程度。

  3. 可解释性不足。通过这些方法对模型进行调整后,很难解释模型究竟学到了什么,为什么会产生更好的效果。

新思路:优化人类输入以适应AI

面对这些挑战,清华大学的研究人员提出了一个全新的思路 - 不去改变模型,而是优化人类的输入,让输入更适合AI理解。这种方法被称为"黑盒提示优化"(Black-Box Prompt Optimization, BPO)。

BPO的核心思想是:既然我们无法改变AI的"思维方式",那不如换个角度,让我们的表达方式更适合AI理解。就像和一个外国人交流,与其让他学习我们的语言,不如我们用他更熟悉的方式来表达。

具体来说,BPO通过以下步骤来实现这一目标:

  1. 收集带有人类偏好标注的对话数据集。研究人员从多个公开数据集中筛选出了约1.4万条高质量的样本,每个样本包含一个原始提示、一个好的回答和一个差的回答。

  2. 利用大语言模型分析好坏回答的区别,并据此优化原始提示。研究人员精心设计了提示工程(prompt engineering)策略,让ChatGPT能够分析出好坏回答的关键区别,并据此给出优化后的提示。

  3. 基于优化前后的提示对,训练一个小型的序列到序列模型。这个模型就像是人类和AI之间的"翻译官",能够自动将人类的原始提示转化为更适合AI理解的形式。

这种方法带来了多方面的优势:

  1. 高效。不需要对大型语言模型进行训练,只需训练一个小型的优化器模型。

  2. 通用性强。可以应用于任何语言模型,包括那些只能通过API访问的闭源模型。

  3. 可解释性好。我们可以直观地看到优化前后提示的变化,理解优化的过程和效果。

实验结果:BPO的惊人效果

研究人员在多个主流大语言模型上进行了广泛的实验,结果令人振奋。以下是一些关键发现:

  1. 普遍提升。BPO在各种模型上都取得了显著的效果提升。例如,在gpt-3.5-turbo上,胜率提升了22个百分点;在GPT-4上,提升了10.1个百分点。

  2. 优于RLHF。在某些情况下,BPO甚至超过了传统的RLHF方法。这意味着,通过优化输入,我们可能比直接调整模型达到更好的效果。

  3. 互补性。更有趣的是,BPO与RLHF等方法是互补的。在已经经过RLHF训练的模型上应用BPO,仍然能带来额外的性能提升。

  4. 适用性广。BPO不仅适用于对话生成,在其他任务如数据增强、监督学习等方面也展现出了潜力。

BPO如何优化提示?

那么,BPO究竟是如何优化原始提示的呢?研究人员对此进行了深入的分析,发现主要有以下几个方面:

  1. 提示解释。BPO会对原始提示中的关键概念或要求进行详细解释,确保AI能够准确理解任务目标。

  2. 提示澄清。对于含糊不清或可能产生歧义的表述,BPO会进行澄清和明确化。

  3. 提示丰富。BPO会根据任务需求,补充一些相关的背景信息或具体要求,让AI能够更全面地理解任务。

  4. 安全增强。BPO会增加一些安全相关的提示,如提醒AI遵守道德准则、避免产生有害内容等。

举个例子,对于一个简单的"讲个笑话"的提示,BPO可能会将其优化为:

请讲述一个适合所有年龄段的轻松幽默笑话。这个笑话应该:
1. 内容友好,不涉及任何敏感或争议性话题
2. 结构简单,易于理解
3. 有一个出人意料但合乎逻辑的结尾
4. 长度适中,不超过5句话
5. 尽量原创,避免使用广为人知的老套笑话

请记住,笑话的目的是带来欢乐,不应该冒犯或贬低任何个人或群体。如果你觉得无法满足这些要求,可以坦诚地说明原因。

可以看到,优化后的提示不仅明确了笑话的具体要求,还加入了安全性考虑,大大增加了AI生成高质量、合适回答的可能性。

BPO的未来:AI交流的新范式?

BPO的出现为人机交互带来了新的可能性。它就像是在人类和AI之间安插了一个"心理医生",帮助双方更好地理解彼此。这种方法不仅能提高AI回答的质量,还能帮助人类更好地学习如何与AI沟通。

未来,我们可以期待看到:

  1. 更智能的输入优化器。随着技术的进步,优化器可能会变得更加智能,能够根据不同的AI模型、任务类型和用户特征来动态调整优化策略。

  2. 个性化的交流助手。每个人与AI交流的风格和需求都不同,未来可能会出现能够学习用户个人风格的个性化BPO助手。

  3. 跨模态的优化。BPO的思想可能会扩展到其他模态,比如优化图像提示以获得更好的文生图效果。

  4. 人机协作的新模式。BPO为人机协作提供了一个新的视角,未来可能会出现更多基于这一思想的创新应用。

当然,BPO也面临着一些挑战。比如如何在保持提示本意的同时进行优化,如何处理多轮对话中的上下文信息等。这些都是未来研究需要解决的问题。

总的来说,BPO开创了一种全新的AI对齐方法,为提升人机交互质量提供了一个富有前景的方向。它让我们重新思考了人与AI沟通的本质,或许在不久的将来,学会"如何与AI对话"将成为每个人的必修课。在AI快速发展的今天,BPO无疑为我们打开了一扇通向人机和谐共处的新大门。

参考文献

  1. Cheng, J., Liu, X., Zheng, K., Ke, P., Wang, H., Dong, Y., … & Huang, M. (2023). Black-Box Prompt Optimization: Aligning Large Language Models without Model Training. arXiv preprint arXiv:2311.04155.

  2. Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., … & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.

  3. Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., … & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730-27744.

  4. Rafailov, R., Sharma, A., Mitchell, E., Ermon, S., Manning, C. D., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290.

  5. Yang, Z., Gan, Z., Wang, X. E., Ling, H. Y., Wang, A., Liu, Z., … & Subramanian, L. (2023). Opro: Open-vocabulary preference optimization for human-ai collaboration. arXiv preprint arXiv:2306.14685.

  • 8
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

步子哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值