大模型理论基础初步学习笔记——第一章 引言

本文GitHub地址https://github.com/panda-like-bamboo/Study-CS324

1.1什么是语言模型

语言模型(LM)是对令牌序列的概率分布,通过对词汇表的令牌序列分配概率来衡量序列的“好”的程度。这概率分布反映了语言模型对不同序列的语法和语义准确性的估计。
不仅限于概率评估,还可以用于生成任务。

1.1.1.联合分布表示:

当给定序列 ( x 1 : L ) (x_{1:L}) (x1:L)时,其联合分布 ( p ( x 1 : L ) ) (p(x_{1:L})) (p(x1:L)) 可以使用概率的链式法则表示为各个时刻条件概率的乘积:

[ p ( x 1 : L ) = ∏ i = 1 L p ( x i ∣ x 1 : i − 1 ) ] [ p(x_{1:L}) = \prod_{i=1}^{L} p(x_i \mid x_{1:i-1}) ] [p(x1:L)=i=1Lp(xix1:i1)]

其中, ( p ( x i ∣ x 1 : i − 1 ) ) (p(x_i \mid x_{1:i-1})) (p(xix1:i1)) 表示在给定序列 ( x 1 : i − 1 ) (x_{1:i-1}) (x1:i1)时生成令牌 ( x i ) (x_i) (xi) 的条件概率。

1.1.2.自回归语言模型 (Autoregressive language models):

考虑自回归语言模型 p p p,它在生成整个序列 ( x 1 : L ) (x_{1:L}) (x1:L) 时,每一步都依赖于之前生成的令牌。这允许使用条件概率分布 p ( x i ∣ x 1 : i − 1 ) p(x_i \mid x_{1:i-1}) p(xix1:i1) 有效计算每个时刻的概率。
其特点是在生成序列时采用自回归的策略。这意味着模型按顺序生成序列中的每个令牌,每生成一个令牌后,该令牌会作为输入用于生成下一个令牌。

使用概率的链式法则表示序列的联合分布以及如何通过自回归语言模型生成序列。

1.1.3.温度参数:

引入温度参数 T T T,该参数用于控制生成中的随机性。具体而言:
o当 T = 0 T=0 T=0 时,选择每个位置上最可能的令牌,生成是确定性的。
o当 T = 1 T=1 T=1 时,从原始语言模型的正常分布中采样。
o当 T = ∞ T=∞ T= 时,从整个词汇表上的均匀分布中采样。

1.1.4.退火条件概率分布:

通过对原始条件概率分布应用温度参数并重新标准化,得到了退火条件概率分布。这允许在生成中调整随机性,即在保留原始概率分布结构的同时引入一定程度的随机性。

1.1.*名词讲解:

令牌:在自然语言处理(Natural Language Processing,NLP)和语言模型中,令牌(Token)通常是指文本数据的基本单位,它可以是一个单词、一个子词(subword)或一个字符,具体取决于文本处理的粒度。令牌化是将文本拆分成这些基本单位的过程。

1.2大模型相关历史回顾

从信息理论的基础、熵的概念开始,到n-gram模型的引入,再到神经语言模型的出现。展示了语言模型领域从最初的概率统计方法到引入神经网络的进展,以及近年来大型神经语言模型的崛起。

1.2.1.信息理论和熵:

信息熵(Entropy)是用于度量概率分布的不确定性或混乱程度的概念。在语言模型中,熵越小,文本的结构性越强,编码的长度越短。
熵的计算公式为:

1.2.2.N-gram模型:

N-gram模型是一种语言模型,其中预测下一个词的概率仅依赖于前面的 n−1 个词,而不是整个历史。
例如,trigram(3-gram)模型的预测公式为
N-gram模型使用统计上的方法,通过大量文本数据中的频次计算概率。

1.2.3.神经语言模型:

神经语言模型引入了神经网络,使得条件分布的建模可以依赖于更长的上下文,但训练成本较高。
初始的神经语言模型在计算上较为昂贵,训练数据相对较小。

1.2.4.RNNs和LSTMs:

为了更好地建模长距离依赖关系,引入了循环神经网络(RNNs)和长短期记忆(LSTMs)架构。

1.2.5.Transformers:

Transformers是一种较新的神经网络架构,对于固定上下文长度 n(例如,n-gram模型)的建模,但在训练上更为有效。

1.2.6.GPT-3:

使用Transformer架构的大型语言模型,具有非常大的上下文长度n,在大量数据上进行训练。

1.3课程意义

模型尺寸的增加和相应的能力变化导致的。

1.3.1.尺寸的增加:

"大型"语言模型指的是参数规模庞大的模型。随着深度学习的兴起和GPU等硬件的进步,语言模型的规模在过去几年中大幅增加。从2018年到2021年,模型的大小增加了数千倍,从ELMo的9400万参数到GPT-3的1750亿参数。

1.3.2.能力的变化:

随着规模的增加,语言模型的能力也发生了变化。以GPT-3为例,它不仅仅是作为较大系统的组成部分,而且具备了作为独立系统的能力。这种能力主要表现在条件生成上,模型能够通过简单的提示执行各种任务,如问答、类比和生成文章标题。

1.3.3.上下文学习:

GPT-3的上下文学习能力,即通过提示的例子来改进任务的执行。与监督学习不同,语言模型可以通过示例学习,而无需明确的输入-输出对。

1.3.4.现实世界中的应用:

大型语言模型在研究领域和工业界都有广泛应用。它们已经改变了自然语言处理(NLP)社区,并在实际生产中使用,如Google搜索、Facebook内容审核、Microsoft的Azure OpenAI服务等。

1.3.5.风险:

尽管大型语言模型具有强大的能力,但也伴随着一些风险。这些风险包括模型的可靠性、社会偏见、有害性、虚假信息、安全性、法律考虑、成本和环境影响等。这些问题需要在使用这些模型时认真考虑和处理。

1.4课程架构

1.4.1.大型语言模型的行为:

我们从外层开始,这里我们只能通过黑匣子API访问模型(就像我们迄今为止所做的)。我们的目标是理解这些被称为大型语言模型的对象的行为,就像我们是研究生物体的生物学家一样。在这个层面上,许多关于能力和危害的问题可以得到回答。

1.4.2.大型语言模型的数据背后:

然后我们深入研究用于训练大型语言模型的数据,并解决诸如安全性、隐私和法律考虑等问题。即使我们无法完全访问模型,但可以访问训练数据,这为我们提供了有关模型的重要信息。

1.4.3.构建大型语言模型:

然后我们进入洋葱的核心,研究如何构建大型语言模型(模型架构、训练算法等)。

1.4.4.超越大型语言模型:

最后,我们以超越语言模型的视角结束引言。语言模型只是对令牌序列的分布。这些令牌可以表示自然语言、编程语言或音频或视觉词典中的元素。语言模型也属于更一般的基础模型类别,这些模型与语言模型具有许多相似的属性。

参考:

[1]datawhale讲义: https://github.com/datawhalechina/so-large-lm
[2]CS324: https://stanford-cs324.github.io/winter2022/lectures/

  • 27
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
cda备考学习学习笔记——基础知识篇(二)主要涉及了计算机科学与技术领域的基本概念和知识。 首先,它介绍了计算机网络的基础知识。网络是将多台计算机通过通信链路连接起来,使它们能够相互通信和共享资源的系统。笔记中详细介绍了网络的组成、拓扑结构和通信协议等重要内容。 其次,笔记还解释了计算机系统的基本组成。计算机系统由硬件和软件两部分组成,其中硬件包括中央处理器、存储器、输入输出设备等,而软件则分为系统软件和应用软件。笔记详细介绍了各种硬件和软件的功能和作用。 此外,笔记还对数据库管理系统进行了介绍。数据库管理系统是一种用于管理和组织数据的软件系统,它能够实现数据的存储、检索和更新等操作。笔记中详细介绍了数据库的概念、结构和操作等内容。 最后,笔记还包括了算法和数据结构的基础知识。算法是解决问题的一系列步骤和规则,而数据结构则是组织和存储数据的方式。笔记中介绍了常用的算法和数据结构,如排序算法、树和图等。 总之,通过学习CDA备考学习笔记中的基础知识篇(二),我们能够更好地理解计算机网络、计算机系统、数据库管理系统以及算法和数据结构等相关概念和知识。这些基础知识对于我们深入研究计算机科学与技术领域是非常重要的,也为我们日后的学习和工作奠定了坚实的基础

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值