大模型理论基础1

本文介绍了语言模型的基本概念,包括自回归模型的生成机制,以及N-gram模型的应用。着重讨论了神经语言模型如RNNs和LSTMs,以及Transformer架构的发展,指出GPT-3使用的上下文长度。
摘要由CSDN通过智能技术生成

大模型理论基础1

第一章:引言

语言模型

  • 自回归语言模型

概率的链式法则:
请添加图片描述
在自回归语言模型 p 中生成整个序列 X1:L,我们需要一次生成一个令牌(token),该令牌基于之前以生成的令牌进行计算获得:
请添加图片描述
其中T≥0 是一个控制我们希望从语言模型中得到多少随机性的温度参数:
T=0:确定性地在每个位置 i 选择最可能的令牌 xi
T=1:从纯语言模型“正常(normally)”采样
T=∞:从整个词汇表上的均匀分布中采样 然而,如果我们仅将概率提高到 1/T 的次方,概率分布可能不会加和到 1。我们可以通过重新标准化分布来解决这个问题。我们将标准化版本 p T(x i∣x 1:i−1)∝p(xi∣x 1:i−1)1/T称为退火条件概率分布。
N-gram模型

  • 语言模型首先被用于需要生成文本的实践应用:噪声信道模型通过贝叶斯定理实现
  • 语音识别和机器翻译系统使用了基于词的n-gram语言模型
  • n-gram模型被训练在大量的文本上
    请添加图片描述

神经语言模型

  • 首次提出了神经语言模型,其中 p(x i ∣x i−(n−1):i−1 ) 由神经网络给出:
    p(cheese∣ate,the)=some−neural−network(ate,the,cheese)
  • Recurrent Neural Networks(RNNs),包括长短期记忆(LSTMs),使得一个令牌x i 的条件分布可以依赖于整个上下文 x 1:i−1(有效地使 n=∞ ),但这些模型难以训练。
  • Transformers是一个较新的架构(于2017年为机器翻译开发),再次返回固定上下文长度n,但更易于训练(并利用了GPU的并行性)。此外,n可以对许多应用程序“足够大”(GPT-3使用的是n=2048)。
  • 9
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值