概述
Transformer 是一种非常流行的架构,它利用和扩展自注意力的概念,为下游任务创建非常有用的输入数据表示。
-
优点:
- 通过上下文嵌入更好地表示我们的输入令牌,其中令牌表示基于使用自我注意的特定相邻令牌。
- 子词标记,而不是字符标记,因为它们可以为我们的许多关键字、前缀、后缀等提供更有意义的表示。
- 参与(并行)我们输入中的所有标记,而不是受到过滤器跨度(CNN)或顺序处理(RNN)的内存问题的限制。
Transformer 是一种非常流行的架构,它利用和扩展自注意力的概念,为下游任务创建非常有用的输入数据表示。
优点: