1. Activation Patching(激活补丁)
激活修补是一种用于确定哪些激活会导致特定行为的方法。
比方说,给一位 LLM 出一道题:
“What’s 2+2?”
我们可以先破坏整个输入的隐藏状态表示。我们会预料到由于破坏而产生的错误输出,比如:
“5er”
“5er”
破坏第一层的隐藏状态会导致错误的输出
然后,我们可以在 LLM 的不同位置分别恢复未被破坏的激活。
例如,我们可以在第12层和第5个标记位置恢复未被破坏的激活,而保留其他被破坏的部分。
如果在该特定位置恢复未损坏的激活后,又出现了正确的输出,那么激活肯定与行为有关。
在第 l 层和第 i 个标记位置恢复特定的隐藏状态,即可恢复原始输出
因此,激活修补可以用来找出因果效应–例如,在上述案例中,我们或许可以确定 LLM 的哪些部分负责精确的数学计算。
另:这里展示了如何使用激活补丁来确定 LLM 中事实的存储位置:https://medium.com/@nikhilanandnj/where-are-facts-stored-in-large-language-models-0869914cfcbf
2. Activation steering(激活引导)
激活引导是一种通常用来使 LLM 以特定的 "理想 "方式行事的方法。例如,Anthropic 公司最近发布了他们的 "金门 Claude "模型–这种 LLM 无论回答什么问题,都会以某种方式提到金门大桥。
这样做的目的是沿着代表金门大桥的特定方向 "引导 "内部状态,希望 LLM 能够对金门大桥 “着迷”(并不停地谈论它)。
去年夏天,我在 Adobe Research 的实习中就采用了这一想法,使我能够将 LLM 的上下文对齐度提高20%。
如还需要深入理解激活引导这个主题,可以参考以下博客:
Understanding “steering” in LLMs
https://ai.gopubby.com/understanding-steering-in-llms-96faf6e0bee7
3. Finding neurons in a haystack (superposition) (在干草堆中寻找神经元(叠加))
这一点与第 2 点十分相似,但也有一些关键区别,使它们成为相当独立的概念。
简单来说,这种方法就是用来找出 LLM 的哪些神经元与金门大桥等有关。
这意味着,每当 LLM 谈到金门大桥时,这些神经元就会亮起来。
这也意味着,通过增加这些神经元的强度,我们可以让 LLM 更 "痴迷 "于金门大桥,就像第 2 点所说的那样。
增强特定的神经元使 LLM 总是谈论金门大桥
那么,这与激活引导有什么关系呢?
增强特定神经元相当于在激活向量中添加一个标准基向量。
标准基向量就是除了其中一个分量为零之外,所有分量都为零的向量。
标准基向量
将这一向量添加到激活向量中(按一定的乘数 α 缩放),将有效地提升金门神经元。
增强神经元相当于添加一个引导向量
结论:以这种方式提升神经元相当于使用标准基向量来引导模型。
在常规激活引导中,我们可以添加任意向量。该向量可以涉及多个神经元,也可以只涉及一个神经元。
如果一个特定的神经元与行为有关,那么这个神经元就是单语义的。但是,如果一组神经元共同与行为有关,那么这些神经元就是多语义的。
4. Rank-One Model Editing(模型编辑)
这种方法是将行为归因于 Transformer 的特定组件(例如,特定的 MLP 或注意力层)。例如,我们可以说事实存储在模型中的特定 MLP 中。
然后,我们可以展示如何通过改变模型中特定的 MLP 权重来编辑这些事实。
Rank-One 模型编辑的简单示意图
更多模型编辑的原理:
https://medium.com/thedeephub/can-we-really-change-an-llms-memory-key-insights-from-recent-research-9ac72c563b47
参考论文
零基础入门AI大模型
今天贴心为大家准备好了一系列AI大模型资源,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
有需要的小伙伴,可以点击下方链接免费领取【保证100%免费
】
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费
】🆓
1.学习路线图
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
2.视频教程
网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。
(都打包成一块的了,不能一一展开,总共300多集)
3.技术文档和电子书
这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
4.LLM面试题和面经合集
这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
5.免费获取
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码或者点击以下链接都可以免费领取【保证100%免费】