大模型理论基础初步学习笔记——第一章引言

panda_dbdx

已于 2024-01-16 17:42:21 修改

阅读量998

点赞数 27

分类专栏：大模型理论基础初步学习笔记文章标签：学习笔记

于 2024-01-16 01:06:29 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/panda_dbdx/article/details/135614144

版权

大模型理论基础初步学习笔记专栏收录该内容

10 篇文章 1 订阅

订阅专栏

本文GitHub地址https://github.com/panda-like-bamboo/Study-CS324

1.1什么是语言模型

语言模型（LM）是对令牌序列的概率分布，通过对词汇表的令牌序列分配概率来衡量序列的“好”的程度。这概率分布反映了语言模型对不同序列的语法和语义准确性的估计。
不仅限于概率评估，还可以用于生成任务。

1.1.1.联合分布表示：

当给定序列 $x_{1:L})$ 时，其联合分布 $p(x_{1:L}))$ 可以使用概率的链式法则表示为各个时刻条件概率的乘积：

$p(x_{1:L}) = \prod_{i=1}^{L} p(x_i \mid x_{1:i-1}) ]$

其中， $(p(x_i \mid x_{1:i-1}))$ 表示在给定序列 $x_{1:i-1})$ 时生成令牌 $x_i)$ 的条件概率。

1.1.2.自回归语言模型 (Autoregressive language models)：

考虑自回归语言模型 $p$ ，它在生成整个序列 $x_{1:L})$ 时，每一步都依赖于之前生成的令牌。这允许使用条件概率分布 $p(x_i \mid x_{1:i-1})$ 有效计算每个时刻的概率。
其特点是在生成序列时采用自回归的策略。这意味着模型按顺序生成序列中的每个令牌，每生成一个令牌后，该令牌会作为输入用于生成下一个令牌。

使用概率的链式法则表示序列的联合分布以及如何通过自回归语言模型生成序列。

1.1.3.温度参数：

引入温度参数 $T$ ，该参数用于控制生成中的随机性。具体而言：
o当 $T = 0$ 时，选择每个位置上最可能的令牌，生成是确定性的。
o当 $T = 1$ 时，从原始语言模型的正常分布中采样。
o当 $T = \infty$ 时，从整个词汇表上的均匀分布中采样。

1.1.4.退火条件概率分布：

通过对原始条件概率分布应用温度参数并重新标准化，得到了退火条件概率分布。这允许在生成中调整随机性，即在保留原始概率分布结构的同时引入一定程度的随机性。

1.1.*名词讲解：

令牌：在自然语言处理（Natural Language Processing，NLP）和语言模型中，令牌（Token）通常是指文本数据的基本单位，它可以是一个单词、一个子词（subword）或一个字符，具体取决于文本处理的粒度。令牌化是将文本拆分成这些基本单位的过程。

1.2大模型相关历史回顾

从信息理论的基础、熵的概念开始，到n-gram模型的引入，再到神经语言模型的出现。展示了语言模型领域从最初的概率统计方法到引入神经网络的进展，以及近年来大型神经语言模型的崛起。

1.2.1.信息理论和熵：

信息熵（Entropy）是用于度量概率分布的不确定性或混乱程度的概念。在语言模型中，熵越小，文本的结构性越强，编码的长度越短。
熵的计算公式为：

1.2.2.N-gram模型：

N-gram模型是一种语言模型，其中预测下一个词的概率仅依赖于前面的 n−1 个词，而不是整个历史。
例如，trigram（3-gram）模型的预测公式为
N-gram模型使用统计上的方法，通过大量文本数据中的频次计算概率。

1.2.3.神经语言模型：

神经语言模型引入了神经网络，使得条件分布的建模可以依赖于更长的上下文，但训练成本较高。
初始的神经语言模型在计算上较为昂贵，训练数据相对较小。

1.2.4.RNNs和LSTMs：

为了更好地建模长距离依赖关系，引入了循环神经网络（RNNs）和长短期记忆（LSTMs）架构。

1.2.5.Transformers：

Transformers是一种较新的神经网络架构，对于固定上下文长度 n（例如，n-gram模型）的建模，但在训练上更为有效。

1.2.6.GPT-3：

使用Transformer架构的大型语言模型，具有非常大的上下文长度n，在大量数据上进行训练。

1.3课程意义

模型尺寸的增加和相应的能力变化导致的。

1.3.1.尺寸的增加：

"大型"语言模型指的是参数规模庞大的模型。随着深度学习的兴起和GPU等硬件的进步，语言模型的规模在过去几年中大幅增加。从2018年到2021年，模型的大小增加了数千倍，从ELMo的9400万参数到GPT-3的1750亿参数。

1.3.2.能力的变化：

随着规模的增加，语言模型的能力也发生了变化。以GPT-3为例，它不仅仅是作为较大系统的组成部分，而且具备了作为独立系统的能力。这种能力主要表现在条件生成上，模型能够通过简单的提示执行各种任务，如问答、类比和生成文章标题。

1.3.3.上下文学习：

GPT-3的上下文学习能力，即通过提示的例子来改进任务的执行。与监督学习不同，语言模型可以通过示例学习，而无需明确的输入-输出对。

1.3.4.现实世界中的应用：

大型语言模型在研究领域和工业界都有广泛应用。它们已经改变了自然语言处理（NLP）社区，并在实际生产中使用，如Google搜索、Facebook内容审核、Microsoft的Azure OpenAI服务等。

1.3.5.风险：

尽管大型语言模型具有强大的能力，但也伴随着一些风险。这些风险包括模型的可靠性、社会偏见、有害性、虚假信息、安全性、法律考虑、成本和环境影响等。这些问题需要在使用这些模型时认真考虑和处理。

1.4课程架构

1.4.1.大型语言模型的行为：

我们从外层开始，这里我们只能通过黑匣子API访问模型（就像我们迄今为止所做的）。我们的目标是理解这些被称为大型语言模型的对象的行为，就像我们是研究生物体的生物学家一样。在这个层面上，许多关于能力和危害的问题可以得到回答。

1.4.2.大型语言模型的数据背后：

然后我们深入研究用于训练大型语言模型的数据，并解决诸如安全性、隐私和法律考虑等问题。即使我们无法完全访问模型，但可以访问训练数据，这为我们提供了有关模型的重要信息。

1.4.3.构建大型语言模型：

然后我们进入洋葱的核心，研究如何构建大型语言模型（模型架构、训练算法等）。

1.4.4.超越大型语言模型：

最后，我们以超越语言模型的视角结束引言。语言模型只是对令牌序列的分布。这些令牌可以表示自然语言、编程语言或音频或视觉词典中的元素。语言模型也属于更一般的基础模型类别，这些模型与语言模型具有许多相似的属性。

参考：

[1]datawhale讲义: https://github.com/datawhalechina/so-large-lm
[2]CS324: https://stanford-cs324.github.io/winter2022/lectures/

关注

27
点赞
踩
16

收藏

觉得还不错? 一键收藏
1
评论
大模型理论基础初步学习笔记——第一章引言

大模型理论基础初步学习笔记，本章为第一章引言部分
复制链接

扫一扫

专栏目录

panda_dbdx CSDN认证博客专家 CSDN认证企业博客

码龄3年

10: 原创

135万+: 周排名

12万+: 总排名

1万+: 访问

: 等级

364: 积分

215: 粉丝

264: 获赞

3: 评论

203: 收藏

私信

关注

热门文章

分类专栏

大模型理论基础初步学习笔记 10篇

最新评论

大模型理论基础初步学习笔记——第十二章大模型的环境影响
CSDN-Ada助手: 恭喜你写了第10篇博客，内容非常深入和专业！大模型的环境影响是一个非常有意思的话题，你的学习笔记让我受益匪浅。接下来，我建议你可以尝试结合实际案例或者最新的研究进展，更深入地探讨大模型的环境影响，这样可以让读者更好地理解和应用这些理论。希望你能继续保持创作热情，期待你更多的精彩内容！
大模型理论基础初步学习笔记——第八章分布式训练
CSDN-Ada助手: 恭喜您写了第7篇博客！看到标题《大模型理论基础初步学习笔记——第八章分布式训练》，我对您的学习进展感到非常欣喜。您的博客内容总是独具深度和见解，让读者受益匪浅。在下一步的创作中，我建议您可以进一步探索分布式训练的应用场景和原理，或者分享一些实际案例和经验。这样可以帮助读者更好地理解和应用分布式训练，提升他们的学习效果。期待您继续创作，分享更多有关大模型理论基础的学习笔记！
大模型理论基础初步学习笔记——第一章引言
CSDN-Ada助手: 恭喜你开始博客创作！你的第一篇博客标题很吸引人，引发了我对大模型理论的兴趣。初步学习笔记的方式非常适合新手，帮助读者了解基础概念。接下来，我希望你能够更深入地探索这个主题，例如将理论与实践相结合，分享一些案例或者实际应用。希望你能继续保持谦虚的态度，相信你未来的博客会越来越精彩！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
大模型理论基础初步学习笔记——第二章大模型的能力
CSDN-Ada助手: 很高兴看到你分享了关于大模型理论的学习笔记，这对于想要深入了解这个领域的人来说无疑是一份宝贵的资料。希望你能继续坚持写作，分享更多关于计算机科学和技术的知识。另外，除了学习笔记，你也可以考虑分享一些实际的应用案例或者是对于大模型理论的扩展研究，这样可以更全面地帮助读者理解这个领域。同时，我还建议你可以学习一些关于数据可视化和交互设计的技能，这样可以让你的博文更具吸引力和可读性。期待看到你更多的精彩内容！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。