经典论文学习：Attention Is All You Need（Transformer）

最新推荐文章于 2024-04-30 10:33:53 发布

才能我浪费

最新推荐文章于 2024-04-30 10:33:53 发布

阅读量2.1k

点赞数 2

分类专栏： AI应用文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/hawkman/article/details/130027177

版权

AI应用专栏收录该内容

25 篇文章

订阅专栏

Transformer模型由GoogleDeepMind在2017年的论文《AttentionIsAllYouNeed》中提出，它以自注意力机制为核心，替代了RNN和CNN，改善了序列数据处理的并行性和可扩展性。模型包含Encoder和Decoder，分别用多头自注意力和多头注意力机制捕捉序列关系。此模型在机器翻译等领域表现出色，现已被广泛应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1，概述

《Attention Is All You Need》是一篇由Google DeepMind团队在2017年发表的论文，该论文提出了一种新的神经网络模型，称为Transformer模型，用于自然语言处理任务。

该模型的创新点在于使用了一种称为“自注意力机制（self-attention mechanism）”的技术，以取代传统的循环神经网络（RNN）和卷积神经网络（CNN）等结构，这使得模型在处理序列数据时具有更好的并行性和可扩展性，同时能够捕捉序列中各个位置之间的相对关系，进而更好地对序列进行建模。

具体来说，自注意力机制允许模型同时计算输入序列中所有位置之间的关系权重，进而加权得到每个位置的特征表示。在Transformer模型中，自注意力机制被运用在了Encoder和Decoder两个部分中，分别用于编码输入序列和生成输出序列。

该论文还提出了一种新的训练方法，称为“无序列信息的训练（Training without sequence information）”，其基本思想是将输入序列中的每个位置看作独立的词向量，而不考虑它们在序列中的位置信息。通过这种方式，可以避免序列中的位置信息对模型训练的影响，提高模型的泛化性能。

该论文在机器翻译和语言建模等自然语言处理任务上取得了非常好的表现，其所提出的Transformer模型也被广泛应用于其他领域，如图像处理和语音识别等任务中。模型架构如下：

《Attention Is All You Need》论文提出的Transformer模型包括Encoder和Decoder两个部分。下面将分别介绍这两个部分的技术细节。

2，Encoder

Encoder的作用是将输入序列编码成一个高维向量表示，该向量表示将被输入到Decoder中用于生成输出序列。Encoder包括多个Encoder层，每个Encoder层由两个子层组成：多头自注意力机制和前馈网络。

多头自注意力机制

多头自注意力机制（multi-head self-attention）是Transformer模型的核心部分，其作用是从输入序列中学习并计算每个位置与其他位置之间的相关度。具体来说，多头自注意力机制将输入序列中的每个位置看作一个向量，然后对这些向量进行相似度计算，得到每个位置与其他位置之间的相关度。

多头自注意力机制将输入序列分别映射成多个维度相同的向量，然后分别应用自注意力机制，得到多个输出向量，最后将这些输出向量拼接起来，得到最终的向量表示。这种分头处理的方法可以使模型更好地捕捉不同方面的特征，从而提高模型的表现。