大模型理论基础1

Autumn—snow

已于 2024-01-15 21:55:41 修改

阅读量483

点赞数 9

文章标签：人工智能

于 2024-01-15 21:53:13 首次发布

本文链接：https://blog.csdn.net/Autumn_snow/article/details/135611534

版权

本文介绍了语言模型的基本概念，包括自回归模型的生成机制，以及N-gram模型的应用。着重讨论了神经语言模型如RNNs和LSTMs，以及Transformer架构的发展，指出GPT-3使用的上下文长度。

摘要由CSDN通过智能技术生成

大模型理论基础1

第一章：引言

语言模型

自回归语言模型

概率的链式法则：
请添加图片描述
在自回归语言模型 p 中生成整个序列 X1:L，我们需要一次生成一个令牌(token)，该令牌基于之前以生成的令牌进行计算获得：

其中T≥0 是一个控制我们希望从语言模型中得到多少随机性的温度参数：
T=0：确定性地在每个位置 i 选择最可能的令牌 xi
T=1：从纯语言模型“正常（normally）”采样
T=∞：从整个词汇表上的均匀分布中采样然而，如果我们仅将概率提高到 1/T 的次方，概率分布可能不会加和到 1。我们可以通过重新标准化分布来解决这个问题。我们将标准化版本 p T(x i∣x 1:i−1)∝p(xi∣x 1:i−1)1/T称为退火条件概率分布。
N-gram模型

语言模型首先被用于需要生成文本的实践应用：噪声信道模型通过贝叶斯定理实现
语音识别和机器翻译系统使用了基于词的n-gram语言模型
n-gram模型被训练在大量的文本上

神经语言模型

首次提出了神经语言模型，其中 p(x i ∣x i−(n−1):i−1 ) 由神经网络给出：
p(cheese∣ate,the)=some−neural−network(ate,the,cheese)
Recurrent Neural Networks（RNNs），包括长短期记忆（LSTMs），使得一个令牌x i 的条件分布可以依赖于整个上下文 x 1:i−1（有效地使 n=∞ ），但这些模型难以训练。
Transformers是一个较新的架构（于2017年为机器翻译开发），再次返回固定上下文长度n，但更易于训练（并利用了GPU的并行性）。此外，n可以对许多应用程序“足够大”（GPT-3使用的是n=2048）。

Autumn—snow

关注

9
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
大模型理论基础1

T=∞：从整个词汇表上的均匀分布中采样然而，如果我们仅将概率提高到 1/T 的次方，概率分布可能不会加和到 1。我们将标准化版本 p T(x i∣x 1:i−1)∝p(xi∣x 1:i−1)1/T称为退火条件概率分布。是一个较新的架构（于2017年为机器翻译开发），再次返回固定上下文长度n，但更易于训练（并利用了GPU的并行性）。，包括长短期记忆（LSTMs），使得一个令牌x i 的条件分布可以依赖于整个上下文 x 1:i−1（有效地使 n=∞ ），但这些模型难以训练。
复制链接

扫一扫