大模型介绍2:核心技术(未完待续)

Transformer 架构基础上构建的预训练语言模型为自然语言处理领域带来了一系列突破式进展,成为人工智能主流技术范 式。
预训练语言模型采用“预训练 + 微调”方法,主要分为两步:
1) 将模型在大规模无标注数据上进行自监督训练得到预训练模型,
2) 将模型在下游各种自然语言处理任务上的小规模有标注数据进行微 调得到适配模型。由于预训练语言模型参数越大模型表现越好,这激 发了语言大模型( Large Language Model, LLM )研究热潮。

Transformer 架构

Transformer 架构 [13] 是目前语言大模型采用的主流架构 [5],其基 自注意力机制(Self-attention Mechanism)模型。
其主要思想是通过自注意力机制获取输入序列的全局信息,并将这些信息通过网络层进行传递。
  标准的 Transformer 如图 2-1 所示,是一个编码器 -解码器架构, 其编码器和解码器均由一个编码层和若干相同的 Transformer 模块层 堆叠组成。
 
编码器的 Transformer 模块层包括多头注意力层和全连接前馈网络层,这两部分通过残差连接和层归一化操作连接起来。
  
解码器由于需要考虑解码器输出作为背景信息进行生成,其中每个 Transformer 层多了一个交叉注意力层。
 
相比于传统循环神经网络( Recurrent Neural Network, RNN)和长短时记忆神经网络( Long Short-Term Memory Network, LSTM ), Transformer 架构的优势在于它的并行计算能力,即不需要按照时间步顺序地进行计算。
  • 6
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值