EMNLP 2024 | 大语言模型的知识机理:综述和观点

引言

掌握知识一直是人工智能系统发展的核心追求。大语言模型(Large Language Model, LLM)因其封装了大量的参数化知识而闻名,在各个领域的应用也取得了突破性进展。然而,LLM学习、存储、利用知识以及知识的动态演化规律依然是未解之谜。本文从知识利用和进化等角度回顾了大语言模型识机理的前沿进展,包含:知识利用深入探讨了大模型中的记忆、理解以及应用知识的机制;知识进化侧重于单个及多个大语言模型(群体)的知识动态发展。除此之外,本文还对大语言模型中学习到的知识以及参数知识脆弱的原因进行了讨论。

LLM 应用知识的三个阶段

知识被定义为对事实、概念等的认知和理解。LLM 是能处理和生成人类语言的大规模神经网络,其中 Transformer 是一种常用架构,由多层自注意力机制和前馈神经网络组成。

本文探讨了知识利用机制,即 LLM 如何在特定时间点调用和应用其内部存储的知识。这一机制涉及模型如何在 Transformer 的复杂架构中有效地检索、处理和运用已学习的信息,是理解 LLM 功能的关键。

知识利用可以分为三个层次:记忆、理解应用和创造。记忆是最基础的功能,指模型如何存储和回忆基本知识。理解应用则更进一步,涉及模型如何理解并运用知识解决问题。创造是最高层次的功能,指模型能否产生新的知识。

知识演化关注的是模型知识随时间变化的动态过程。这包括单个模型如何学习新知识,以及多个模型之间如何交流和共同进步。

LLM 掌握某个知识可以用下面的公式表示:

其中 表示 LLM, 表示缺少关键信息 的知识记录, 表示正确答案的集合。简单而言,如果模型能正确回答相关问题,就认为它掌握了该知识。

大模型知识利用

根据 Bloom 的认知分类法大模型知识利用分为记忆、理解、应用和总结

知识记忆

知识记忆的目的是记忆和回忆知识,例如具体术语、语法和概念等。

类似于人脑中的功能区域,模块化区域假设将 Transformer 模型中的知识表示简化为独立的模块区域,例如多层感知机或注意力头。

Geva 等人认为,MLP 作为键值存储器运行,每个单独的键向量都对应于特定的语义模式或语法。基于这个发现,Geva 等人对 MLPs 层的运行进行了逆向工程,发现 MLPs 可以促进词汇中语义(如测量语义和句法。

除 MLP 外,知识还通过注意力头传递。Hoover 等人解释了每个注意头所学习到的知识。具体来说,注意头会存储明显的语言特征、位置信息等。此外,事实信息和偏见也会通过注意力头传递。

模块化区域假设忽略了不同模块之间的联系,受到神经科学的启发,de Schotten 等人认为不同组成部分之间的联系整合了知识。

Geva等人描述了模型编码事实知识的三个步骤:多层感知机丰富主语的信息,关系信息传播到最后一个 token,后续层的注意力头提取宾语信息。

理解和应用

知识理解和应用侧重于展示对已记忆知识的理解,并在新场景下解决问题,如推理和规划。

从模块化区域的角度来看,知识利用会重复使用一些区域。一般来说,基础知识往往存储在较早的层,而复杂知识则位于较后的层。

Olsson等人在 Llama 和 GPT 模型中识别出“归纳头”,认为它们负责处理上下文学习任务。随后,Tang等人在 Llama 和 BLOOM 模型中发现了特定的神经元,这些神经元能够处理多种语言,包括英语、法语、普通话等

知识创造

知识创造强调的是形成有价值的新事物的能力和过程。知识创造包含两个阶段:

  1. LLMs 根据理解的世界原则创造新的术语。

  2. LLM 生成新的规则,例如数学定理,由此产生的术语将根据新规则运行。

知识表达具有多样性,有些知识本质上是连续的,难以用离散数据点完全表示。LLM 利用对世界运作原理的理解,从已知的离散点推断出额外的知识,从而弥补了我们对世界的理解。这可以被理解为 LLM 创造知识的过程。

但是 LLM 创造知识的过程也存在一些局限,例如 LLM 创造的知识并非都存在价值。Chakrabarty等人也指出 LLM 因架构的限制无法自己评估知识创造的价值。

大模型知识进化

知识进化是指 LLM 中的知识应随着外部环境的变化而发展,具体可以分为个体进化和群体进化两种。

个体进化

个体进化是 LLM 与动态环境进行交互,通过记忆、遗忘、纠错和加深对周围世界理解,并且逐步走向成熟的过程。在这个过程中,LLM 将知识封装成参数。

个体进化过程可以分为预训练(pre-train)和后训练(post-train)两个阶段。

在预训练阶段,大模型一开始一无所知,所以更容易获取新知识。这一过程中大模型积累了大量知识。

然而,预训练过程中的数据可能会引发大模型内部知识参数之间的冲突。具体而言,训练语料中的错误和矛盾信息会通过语义扩散传播并污染 LLMs 中的相关记忆,从而带来更广泛的不利影响。另一方面,大语言模型倾向于优先记忆更频繁出现和更具挑战性的事实。这可能导致后续学习的事实覆盖先前记忆的内容,从而显著阻碍了低频事实的记忆。

预训练之后,大模型通过后训练更新其内部知识,例如通过指令微调遵循人类指令,通过对齐微调与人类价值观保持一致等。但是研究发现,大模型更倾向于通过预训练学习事实知识,微调过程只是教会大模型高效利用这些知识。

除此之外,知识编辑展现出知识添加、修改和删除的潜力。知识编辑旨在通过直接修改模型内部参数或附带的知识库,从而改变模型的输出或行为,且避免对其他输入产生负面影响。

群体进化

与个体进化相比,群体进化面临更加复杂的冲突,包括智能体之间专业知识的差异、利益竞争、文化差异和道德困境等。

为了达成共识和解决冲突,智能体首先需要通过内部表征明确自身和他人的目标。之后,智能体通过各种通信方法进行讨论、辩论和反思,以形成共享知识。

然而,Zhang等人发现群体进化面临一个挑战:智能体的从众性。这种倾向可能导致智能体相信多数人的错误答案,而非坚持自己的正确判断,从而不能有效解决冲突。

LLM知识机理的应用

高效的大语言模型。知识机理研究有助于提升LLM效率并降低实际应用中的资源消耗。例如,通过基于知识机理设计显式记忆来减轻模型参数负担,或开发知识融合方法将多个特定任务模型整合为一个多任务模型等。

可信的大语言模型。知识机理研究有助于提升LLM在实际应用中的可信度,深入理解大语言模型在幻觉和安全性等问题上的根本原因,推动大模型安全性技术、遗忘学习等领域的发展。

LLM 的现状、挑战与未来

尽管存在许多关于大模型的非议,但是当前的主流观点还是认为大模型已掌握基本的世界知识。

然而大模型在推理和创造力方面仍然面临诸多挑战,这可能是由于知识的脆弱性从而导致幻觉和知识冲突等各种问题。

关于大模型的未来发展,文章提出了“暗知识假说”:即使在理想的数据和模型条件下,仍将存在人类或机器无法获知的知识领域。

注意,这一假说并不是唱衰大模型,而是强调了人机协作在探索未知领域的重要性。

大模型的发展过程中,其他学科也起到了举足轻重的作用。例如神经科学的知识可以帮助改进大模型的架构和知识机制;认知科学和心理学可以引导人类探索大模型的高级认知能力等。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值