来源:https://zhuanlan.zhihu.com/p/330483336
优点
这一块分析的人很多,就不深究。
-
可以直接计算每个词之间的相关性,不需要通过隐藏层传递
-
可以并行计算,可以充分利用GPU资源
缺点
-
局部信息的获取不如RNN和CNN强
-
位置信息编码存在问题
在使用词向量的过程中,会做如下假设:对词向量做线性变换,其语义可以在很大程度上得以保留,也就是说词向量保存了词语的语言学信息(词性、语义)。然而,位置编码在语义空间中并不具有这种可变换性,它相当于人为设计的一种索引。那么,将这种位置编码与词向量相加,就是不合理的,所以不能很好地表征位置信息。
- 顶层梯度消失
Transformer 模型实际上是由一些残差模块与层归一化模块组合而成。目前最常见的 Transformer 模型都使用了LN,即层归一化模块位于两个残差模块之间。因此,最终的输出层与之前的 Transformer 层都没有直连通路,梯度流会被层归一化模块阻断。