科学家提出大模型微调新方法，效果优于现有大模型参数高效微调

泡椒竹笋面

于 2024-08-18 14:00:00 发布

阅读量641

点赞数 7

文章标签： pytorch chatgpt 人工智能华为深度学习

本文链接：https://blog.csdn.net/kaka0722ww/article/details/141264530

版权

最近，美国斯坦福大学团队提出了一种基于大语言模型表征的微调新方法，名为 ReFT。

该方法通过训练干预模块对模型表征进行干预，从而达到训练的目标。

近日，相关论文以《ReFT：针对大语言模型基于表征的微调方法》（ReFT: Representation Finetuning for Language Models）为题，发表在预印本网站 arXiv 上[1]。

斯坦福大学博士研究生吴政璇和阿拉曼·阿罗拉（Araman Arora）是共同第一作者，克里斯多夫·波茨（Christopher Potts）教授担任通讯作者。

图丨相关论文（来源：arXiv）

吴政璇是斯坦福大学自然语言处理组的博士研究生，该研究的设计思路来源于一次偶然的实验。

当时，他与两位合作者想确认一个猜想：能不能通过训练很小的表征干预模块，让大模型一直输出“Sorry, I don’t know”？

结果，他们在只改变线性子空间中的单个神经元的情况下，就做到了。在此基础上，研发了 ReFT。

需要了解的是，模型表征并不具有参数，它是模型在线生成的产物。

现有的大模型参数高效微调（PEFT，Parameter Efficient Fine-Tuning）通常需要训练一些少量的模型参数，或者对于新加的适配器进行少量的参数微调，再或者像前缀词微调一样训练少量词向量。

吴政璇表示：“我们加入了‘表征干预模块’这个概念，其负责修改特定的表征，来达到训练的目标。”

图丨吴政璇（来源：吴政璇）

干预的表征通常是很少量的分词（tokens）所在位置的表征，以帮助研究人员省训练参数。

输入序列中的时间概念是关键。现有的 PEFT 通常会忽略时间的概念，而是对于模型产生的表征进行全局修改。

换言之，每一层、每一个分词对应的表征，全部都会产生变化来达到训练的目标。

“我们认为这是没必要的。通常，大模型的表征已经具有十分有意义的表示。比如，词在空间向量中的位置和词的意思通常会有相关性等。”吴政璇说。

基于此，该课题组猜想，如果只是对少部分表征进行修改，是不是也能达到训练的目标呢？

模型和解释性为他们的方法提供了理论基础。在 ReFT 之前，领域内已经有一些表征修改的方法，能达到控制模型输出的能力。

与之不同的是，该团队所提出的 LoReFT 方法是基于“线性子空间”的概念。

线性子空间来源于早期神经网络的相关研究[2-4]，它们都提出一个假说：神经网络学习到的概念存在于线性子空间中。

吴政璇表示，基于这些理论基础，该课题组提出的新方法在表征的线性子空间中进行修改，命名为 LoReFT。

图丨_I_ 代表了干预模块，方程 Φ 是需要学习的表征干预方程，P 和 L 分别代表了干预位置，和干预层。右图详细标注了具体在什么位置进行干预（这里的位置包含了分词位置和模型层号）（来源：arXiv）

“在这个示意图里，我们干预了前两个，以及后两个分词对应所有层的表征。”吴政璇表示。

ReFT 允许研究人员跨不同的时间步和位置进行干预。到目前为止，他们只对提示词进行干预。当跨层进行干预时，不共享权重。

他表示：“我们尚未尝试在特定的因果路径上进行干预，更复杂的 ReFT 或自动 ReFT 有望效果更好，拥有更好控制数学推理能力的 ReFT 会很酷。”

ReFT 依赖于解释性工作的洞见，也可能能够反过来为该领域贡献洞见。

“我们希望能够用一个更积极的视角解读我们的模型，而不是将它们视为能够修剪和理解的静态参照物，可以从模型中创建有用且可解释的抽象。”吴政璇说。

图丨当应用于 LLaMA、Llama-2、Llama-3 和 RoBERTa 模型时，四种基准测试中的 LoReFT 和其他 PEFT 的参数计数与性能（来源：arXiv）

通常来说，很多人只会关注于模型的权重更新通过训练求导的方式。研究团队通过这次研究，将“干预”的概念展示给更多的研究人员。

“表征的干预其实更加节省算力，有更多的拓展空间，而且在推理时间上也不会有太多的损失。”吴政璇说。

在 ReFT 展示对齐可能性的同时，该课题组也期待可通过干预训练或编辑表示来完成。

通过微调表征，本质上是在了解模型在干预条件下的行为方式的前提下，创建一个用户具有部分控制权的灰盒模型。换句话说，能做的因果抽象越多，获得的控制就越多。

吴政璇表示：“ReFT 达到或非常接近于最先进的水平（SOTA，State of the Art）是出乎意料的，这意味着我们的语言模型在它们的表示空间中，还有更多可被探索的潜力。”

那么，如何系统的去学习大模型LLM？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取~

篇幅有限，部分资料如下：

👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点，扫盲必看！
在这里插入图片描述
💥既然要系统的学习大模型，那么学习路线是必不可少的，这份路线能帮助你快速梳理知识，形成自己的体系。

👉大模型入门实战训练👈

💥光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。
在这里插入图片描述

👉国内企业大模型落地应用案例👈

💥《中国大模型落地应用案例集》 收录了52个优秀的大模型落地应用案例，这些案例覆盖了金融、医疗、教育、交通、制造等众多领域，无论是对于大模型技术的研究者，还是对于希望了解大模型技术在实际业务中如何应用的业内人士，都具有很高的参考价值。 （文末领取）
在这里插入图片描述
💥《2024大模型行业应用十大典范案例集》 汇集了文化、医药、IT、钢铁、航空、企业服务等行业在大模型应用领域的典范案例。

在这里插入图片描述

👉LLM大模型学习视频👈

💥观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。 （文末领取）
在这里插入图片描述

👉640份大模型行业报告👈

💥包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

👉获取方式：

这份完整版的大模型 LLM 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取🆓

泡椒竹笋面

关注

7
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
科学家提出大模型微调新方法，效果优于现有大模型参数高效微调

最近，美国斯坦福大学团队提出了一种基于大语言模型表征的微调新方法，名为 ReFT。该方法通过训练干预模块对模型表征进行干预，从而达到训练的目标。近日，相关论文以《ReFT：针对大语言模型基于表征的微调方法》（）为题，发表在预印本网站arXiv上[1]。斯坦福大学博士研究生吴政璇和阿拉曼·阿罗拉（Araman Arora）是共同第一作者，克里斯多夫·波茨（）教授担任通讯作者。图丨相关论文（来源：arXiv吴政璇是斯坦福大学自然语言处理组的博士研究生，该研究的设计思路来源于一次偶然的实验。
复制链接

扫一扫