Lunira-CSDN博客

原创《Attention Is All You Need》（Vaswani et al.,2017)Transformer架构论文综述

我的理解是在用RNN（递归神经网络）处理长文本时需要考虑他们输入和输出序列的距离，而且必须按顺序计算，前一个有结果时才能进行下一个，无法同时进行，而CNN（卷积神经网络）能同时关联相邻的信号，但这就导致学习距离远的两个信号之间的关联变得困难。Transformer以编码器（提取输入的序列）和解码器（根据编码器结果生成序列）堆叠为结构，就在翻译，摘要等多种任务中超越了RNN和CNN，并且以多头注意力（可以同时运行多个自注意力）取代了编码器——解码器架构中最常用的递归层。

2025-04-16 21:59:52 179

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 《Attention Is All You Need》（Vaswani et al.,2017)Transformer架构论文综述

空空如也

空空如也

原创《Attention Is All You Need》（Vaswani et al.,2017)Transformer架构论文综述