大模型对齐告别微调，直接编辑表征空间即可解决

最新推荐文章于 2024-07-19 16:27:02 发布

小天才学习机打游戏

最新推荐文章于 2024-07-19 16:27:02 发布

阅读量982

点赞数 29

文章标签：安全语言模型 c# llama 人工智能

本文链接：https://blog.csdn.net/m0_59164520/article/details/140023153

版权

人工智能技术正在飞速发展，尤其是大语言模型在自然语言处理领域取得了令人瞩目的成就。但同时，我们也面临着如何让语言模型更符合人类意图、减少有害内容生成的挑战。

针对大模型对齐方向的挑战，本文提出了一种新颖的方法来解决这一难题。其核心思想是：将自回归语言模型看作一个离散时间随机动力系统，通过在其表征空间中引入控制信号，动态调整模型在生成过程中的行为，使之更加符合特定的对齐目标。与需要微调模型参数的方法不同，该方法只需训练一个简单的价值网络，并在测试时优化表征空间即可实现对齐，因而速度更快、资源占用更少。

实验表明，这一方法在保持生成质量的同时，显著提升了语言模型对无害性、有帮助性等人类偏好的契合度，并展现出了强大的泛化能力。

论文标题:
Aligning Large Language Models with Representation Editing: A Control Perspective

论文链接:

https://arxiv.org/pdf/2406.05954.pdf

在这里插入图片描述

3.5研究测试：
hujiaoai.cn
4研究测试：
askmanyai.cn
Claude-3研究测试：
hiclaude3.com

大模型对齐困境

随着自然语言处理技术的飞速发展，预训练语言模型的规模不断增大，在各类任务上取得了令人惊艳的效果。然而由于训练数据的复杂性和多样性，这些模型可能会生成有害、无关或不符合人类意图的内容。如何让语言模型更好地与人类偏好保持一致，成为了一个亟待解决的问题。

在这里插入图片描述

目前主要有两类方法来实现语言模型对齐：微调和测试时对齐。微调方法如RLHF(Reinforcement Learning from Human Feedback)通过人类反馈数据训练一个奖励模型，再用强化学习技术去优化语言模型的策略。然而，这类方法存在训练不稳定且需要大量算力的问题。此外，每当面临新的数据或需求时，都需要重新微调模型，难以快速适应不断变化的应用环境。近年来也有研究提出了一些简化RLHF的方法如DPO，但仍难以避免大量计算资源的消耗。

在这里插入图片描述

测试时对齐方法如提示工程(prompt engineering)和受控解码(guided decoding)，无需改动模型参数，通过设计巧妙的提示或解码策略来引导模型生成更安全、更符合人类意图的内容。但由于这类方法并未改变语言模型本身，其对齐能力有限，效果很依赖原模型的性能。

此外，还有一类通过表征工程(representation engineering)实现模型对齐的方法。这类方法通过向语言模型的表征空间中添加扰动，在不改变模型参数的情况下调整其生成行为。已有工作证实，表征编辑在提高语言模型真实性、减少幻觉等方面有不错的效果。但已有方法大多采用添加固定扰动的方式，且未考虑语言模型生成过程的自回归特性。

如何在不牺牲效果的前提下，以更轻量化、更灵活的方式实现语言模型对齐，充分发挥大模型的生成能力，成为一个亟待探索的研究方向。

RE-CONTROL：测试时语言模型对齐新方法

针对上述问题，本文提出了一种全新的解决方案。该方法巧妙地利用了自回归语言模型与离散时间随机动力系统之间的联系，通过在语言模型的表征空间中引入外部控制信号，在测试时动态调整模型行为，使之更加符合特定的对齐目标。

具体来说，研究者将预训练的自回归语言模型看作一个离散时间随机动力系统，其行为由状态转移函数决定：

其中为每个时间步新生成的token，为之前时间步积累的键-值对，W为将logits 映射为词表概率分布的线性变换。生成过程不断进行，直到即停止。

传统语言模型缺乏直接的控制信号，因此研究者提出通过表征编辑的方式，在每个时间步为语言模型状态引入控制信号：

引入控制信号后，优化目标变为在获得最大期望奖励的同时，控制信号尽量小：

为实现上述优化，研究者首先在语言模型的状态空间训练一个价值函数。根据Bellman方程，其需要满足：

其中为奖励函数，可以基于人类反馈数据训练得到，也可以由启发式规则定义。

在测试时，研究者通过梯度上升的方式优化模型状态，寻找最优的控制信号：

由于价值网络结构简单(2-3层MLP)，优化过程非常高效。控制信号的大小可通过梯度步长和更新次数来隐式地加以约束。

下图展示了RE-CONTROL的整体框架，阐明了该方法如何利用表征编辑技术在测试时实现语言模型对齐。具体来说，整个过程分为以下几个部分：

在这里插入图片描述

1.未对齐的语言模型：左侧为一个预训练的自回归语言模型。给定输入提示，该模型会顺序生成输出序列。但由于训练数据的复杂性，生成内容可能存在有害或不符合人类偏好的问题。
2.微调后的语言模型：上面右侧是经过微调对齐后的语言模型。通过参数更新，该模型能够生成更加安全、符合人类意图的内容，但是微调需要重新训练模型，代价较大。
3.RE-CONTROL：首先，在语言模型的隐状态空间(黄色椭圆)上训练一个价值网络(紫色三角)，用于预测给定状态的期望奖励。在测试时，输入提示token(绿色方块)后，语言模型按照原有参数生成隐状态和输出token(蓝色方块)。但在每个时间步，RE-CONTROL通过优化隐状态(黄色椭圆变红)来最大化价值分数，得到控制信号并加到原有隐状态上，从而调整语言模型的生成行为,得到更加安全、有益的输出(红色方块)。

RE-CONTROL在测试时并不改变语言模型的参数，因此避免了耗时的微调过程。同时，由于价值网络结构简单，优化过程也非常高效。这为快速灵活地适应不同对齐需求提供了可能。

综上，RE-CONTROL利用最优控制的思想，通过训练价值函数并在测试时优化表征空间，动态调整语言模型的生成策略，在最小代价下实现对齐。这为解决大模型应用中的安全性难题提供了一个简洁优雅的思路。

实验验证

为全面评估RE-CONTROL的性能，研究者在广泛使用的HH-RLHF数据集上进行了一系列实验。该数据集包含16.1万个训练样本和8550个测试样本，用于提高AI助手的安全性和有益性。实验以Vicuna-7B和Falcon-7B作为基础模型，采用GPT-4对回复质量进行评分。

下表展示了RE-CONTROL与各种测试时对齐方法在HH-RLHF上的性能对比。RE-CONTROL在生成多样性(diversity)、连贯性(coherence)、平均奖励(average reward)、GPT-4评分(win rate)等指标上全面超越了提示工程(prompting)、静态表征编辑(Static RE)、受控解码(CD和CD prefix)等方法。RE-CONTROL+Prompting在Vicuna-7B上将GPT-4评分提高了22.7个百分点，在Falcon-7B上提高了20.3个百分点，充分证明了该方法的有效性。同时，RE-CONTROL的推理速度也远快于受控解码方法。

在这里插入图片描述

文章中对RE-CONTROL与DPO、PPO等微调方法进行了比较，RE-CONTROL在生成质量和对齐效果上与这些方法不相上下，却避免了大量的计算开销，展现出了极强的性价比优势。
在这里插入图片描述

此外，研究者还在HarmfulQA等分布外数据集上测试了RE-CONTROL的泛化性能。RE-CONTROL+Prompting在Vicuna-7B和Falcon-7B两个基础模型上均大幅领先于其他方法，GPT-4评分高出第二名10个百分点以上，表明该方法能够很好地适应不同场景下的对齐需求。

在这里插入图片描述

研究者还通过消融实验分析了RE-CONTROL的关键因素。下图描绘了测试时梯度步长和更新次数对最终性能的影响。当步长和更新次数过大时，模型会过度优化奖励而牺牲生成质量。因此，适度的正则化至关重要。

在这里插入图片描述

大量实验结果从多方面印证了RE-CONTROL作为一种测试时对齐新方法的有效性。它在提高语言模型对人类偏好契合度的同时，不影响生成质量，推理速度快，泛化能力强，为实现大模型的安全可控应用提供了新的思路。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

小天才学习机打游戏

关注

29
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
大模型对齐告别微调，直接编辑表征空间即可解决

人工智能技术正在飞速发展，尤其是大语言模型在自然语言处理领域取得了令人瞩目的成就。但同时，我们也面临着如何让语言模型更符合人类意图、减少有害内容生成的挑战。针对大模型对齐方向的挑战，本文提出了一种新颖的方法来解决这一难题。其核心思想是：将自回归语言模型看作一个离散时间随机动力系统，通过在其表征空间中引入控制信号，动态调整模型在生成过程中的行为，使之更加符合特定的对齐目标。与需要微调模型参数的方法不同，该方法只需训练一个简单的价值网络，并在测试时优化表征空间即可实现对齐，因而速度更快、资源占用更少。
复制链接

扫一扫