大模型底层结构之Transformer

walker.wu

已于 2024-07-18 17:23:00 修改

阅读量202

点赞数 3

分类专栏：大模型文章标签： transformer 深度学习人工智能

于 2024-07-18 17:21:27 首次发布

本文链接：https://blog.csdn.net/u012966380/article/details/140528465

版权

大模型专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Transformer是一种端到端(sequence-to-sequence)模型，由Vaswani等人在2017年的论文《Attention is All You Need》中提出。它革新了自然语言处理领域，尤其是机器翻译，相较于之前的循环神经网络(RNNs)和卷积神经网络(CNNs)，Transformer模型具有更快的并行化训练和更高效的性能。

以下是Transformer的一些关键组件：

自注意力机制(Self-Attention)：这是Transformer的核心，它允许模型在处理序列数据时关注输入的不同部分。自注意力机制使模型能够在给定单词的上下文中找到与之相关联的其他单词，而无需依赖于循环结构。
编码器-解码器架构(Encoder-Decoder Architecture)：Transformer包含多个编码器和解码器层。编码器负责读取输入序列并将其转换成表示向量，而解码器则基于编码器的输出生成输出序列。
位置编码(Positional Encoding)：由于Transformer没有内置的顺序感知，位置编码被添加到输入嵌入中，以便模型能够区分序列中单词的位置。
前馈神经网络(Feed Forward Neural Networks)：每个编码器和解码器层都包含一个前馈神经网络，用于对输入进行非线性变换，这有助于模型捕获更复杂的特征。
待完成

关注博主即可阅读全文