- 博客(1)
- 收藏
- 关注
原创 《Attention Is All You Need》(Vaswani et al.,2017)Transformer架构论文综述
我的理解是在用RNN(递归神经网络)处理长文本时需要考虑他们输入和输出序列的距离,而且必须按顺序计算,前一个有结果时才能进行下一个,无法同时进行,而CNN(卷积神经网络)能同时关联相邻的信号,但这就导致学习距离远的两个信号之间的关联变得困难。Transformer以编码器(提取输入的序列)和解码器(根据编码器结果生成序列)堆叠为结构,就在翻译,摘要等多种任务中超越了RNN和CNN,并且以多头注意力(可以同时运行多个自注意力)取代了编码器——解码器架构中最常用的递归层。
2025-04-16 21:59:52
179
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人