1. transformer与传统神经网络对比
1.1 传统神经网络的劣势:
- 传统神经网络依赖于时序关系,难以并行处理;
- 处理长序列存在梯度消失或梯度爆炸的问题,全局特征捕获能力差;
- 依赖于局部感受野,全局建模能力差;
- 需要额外的位置编码或者在输入时引入位置信息来处理序列中的位置关系,这增加了模型复杂性和设计的复杂度。
1.2 transformer解决的问题:
- 自护注意力机制允许模型关注输入序列中的所有位置,更好的捕捉长距离依赖和全局信息;
- 多头注意力机制增强了模型对不同位置的特征的表征能力,提升了泛化性能和学习效率;
- 加入位置嵌入向量直接解决了位置信息的处理问题,使得模型能够更好地处理序列数据。
2. transformer自注意力计算内容详见:
详解Transformer中Self-Attention以及Multi-Head Attention_transformer multi head-CSDN博客