大模型介绍2：核心技术(未完待续)

hzp666

已于 2024-02-28 14:03:13 修改

阅读量382

点赞数 6

分类专栏：机器学习文章标签：大模型 GPT 大模型训练 AIGC Transformer

于 2024-01-23 11:16:55 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hzp666/article/details/135766631

版权

机器学习专栏收录该内容

67 篇文章 4 订阅

订阅专栏

Transformer 架构基础上构建的预训练语言模型为自然语言处理领域带来了一系列突破式进展，成为人工智能主流技术范式。

预训练语言模型采用“预训练 + 微调”方法，主要分为两步：

1）将模型在大规模无标注数据上进行自监督训练得到预训练模型，

2）将模型在下游各种自然语言处理任务上的小规模有标注数据进行微调得到适配模型。由于预训练语言模型参数越大模型表现越好，这激发了语言大模型（ Large Language Model, LLM ）研究热潮。

Transformer 架构

Transformer 架构 [13] 是目前语言大模型采用的主流架构 [5]，其基自注意力机制(Self-attention Mechanism)模型。

机器学习-自注意力机制Self/Intra Attention简介-CSDN博客

其主要思想是通过自注意力机制获取输入序列的全局信息，并将这些信息通过网络层进行传递。

标准的 Transformer 如图 2-1 所示，是一个编码器 -解码器架构，其编码器和解码器均由一个编码层和若干相同的 Transformer 模块层堆叠组成。

编码器的 Transformer 模块层包括多头注意力层和全连接前馈网络层，这两部分通过残差连接和层归一化操作连接起来。

解码器由于需要考虑解码器输出作为背景信息进行生成，其中每个 Transformer 层多了一个交叉注意力层。

相比于传统循环神经网络（ Recurrent Neural Network, RNN）和长短时记忆神经网络（ Long Short-Term Memory Network, LSTM ）， Transformer 架构的优势在于它的并行计算能力，即不需要按照时间步顺序地进行计算。

关注

6
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
大模型介绍2：核心技术(未完待续)

2）将模型在下游各种自然语言处理任务上的小规模有标注数据进行微调得到适配模型。由于预训练语言模型参数越大模型表现越好，这激发了语言大模型（Transformer 架构基础上构建的预训练语言模型为自然语言处理领域带来了一系列突破式进展，成为人工智能主流技术范式。其主要思想是通过自注意力机制获取输入序列的全局信息，并将这些信息通过网络层进行传递。1）将模型在大规模无标注数据上进行自监督训练得到预训练模型，是目前语言大模型采用的主流架构。预训练语言模型采用“预训练。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。