探究大模型内部机制的4个方法

1. Activation Patching(激活补丁)

激活修补是一种用于确定哪些激活会导致特定行为的方法。

比方说,给一位 LLM 出一道题:

“What’s 2+2?”

我们可以先破坏整个输入的隐藏状态表示。我们会预料到由于破坏而产生的错误输出,比如:

“5er”

“5er”

破坏第一层的隐藏状态会导致错误的输出

然后,我们可以在 LLM 的不同位置分别恢复未被破坏的激活。

例如,我们可以在第12层和第5个标记位置恢复未被破坏的激活,而保留其他被破坏的部分。

如果在该特定位置恢复未损坏的激活后,又出现了正确的输出,那么激活肯定与行为有关。

在第 l 层和第 i 个标记位置恢复特定的隐藏状态,即可恢复原始输出

因此,激活修补可以用来找出因果效应–例如,在上述案例中,我们或许可以确定 LLM 的哪些部分负责精确的数学计算。

另:这里展示了如何使用激活补丁来确定 LLM 中事实的存储位置:https://medium.com/@nikhilanandnj/where-are-facts-stored-in-large-language-models-0869914cfcbf

2. Activation steering(激活引导)

激活引导是一种通常用来使 LLM 以特定的 "理想 "方式行事的方法。例如,Anthropic 公司最近发布了他们的 "金门 Claude "模型–这种 LLM 无论回答什么问题,都会以某种方式提到金门大桥。

这样做的目的是沿着代表金门大桥的特定方向 "引导 "内部状态,希望 LLM 能够对金门大桥 “着迷”(并不停地谈论它)。

去年夏天,我在 Adobe Research 的实习中就采用了这一想法,使我能够将 LLM 的上下文对齐度提高20%。

如还需要深入理解激活引导这个主题,可以参考以下博客:

Understanding “steering” in LLMs

https://ai.gopubby.com/understanding-steering-in-llms-96faf6e0bee7

3. Finding neurons in a haystack (superposition) (在干草堆中寻找神经元(叠加))

这一点与第 2 点十分相似,但也有一些关键区别,使它们成为相当独立的概念。

简单来说,这种方法就是用来找出 LLM 的哪些神经元与金门大桥等有关。

这意味着,每当 LLM 谈到金门大桥时,这些神经元就会亮起来。

这也意味着,通过增加这些神经元的强度,我们可以让 LLM 更 "痴迷 "于金门大桥,就像第 2 点所说的那样。

增强特定的神经元使 LLM 总是谈论金门大桥

那么,这与激活引导有什么关系呢?

增强特定神经元相当于在激活向量中添加一个标准基向量。

标准基向量就是除了其中一个分量为零之外,所有分量都为零的向量。

标准基向量

将这一向量添加到激活向量中(按一定的乘数 α 缩放),将有效地提升金门神经元。

增强神经元相当于添加一个引导向量

结论:以这种方式提升神经元相当于使用标准基向量来引导模型。

在常规激活引导中,我们可以添加任意向量。该向量可以涉及多个神经元,也可以只涉及一个神经元。

如果一个特定的神经元与行为有关,那么这个神经元就是单语义的。但是,如果一组神经元共同与行为有关,那么这些神经元就是多语义的。

4. Rank-One Model Editing(模型编辑)

这种方法是将行为归因于 Transformer 的特定组件(例如,特定的 MLP 或注意力层)。例如,我们可以说事实存储在模型中的特定 MLP 中。

然后,我们可以展示如何通过改变模型中特定的 MLP 权重来编辑这些事实。

Rank-One 模型编辑的简单示意图

更多模型编辑的原理:

https://medium.com/thedeephub/can-we-really-change-an-llms-memory-key-insights-from-recent-research-9ac72c563b47

参考论文

零基础入门AI大模型

今天贴心为大家准备好了一系列AI大模型资源,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

有需要的小伙伴,可以点击下方链接免费领取【保证100%免费

点击领取 《AI大模型&人工智能&入门进阶学习资源包》

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
在这里插入图片描述

1.学习路线图

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

在这里插入图片描述

在这里插入图片描述

(都打包成一块的了,不能一一展开,总共300多集)

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
在这里插入图片描述

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

5.免费获取

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码或者点击以下链接都可以免费领取【保证100%免费】

点击领取 《AI大模型&人工智能&入门进阶学习资源包》

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值