![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Transformer
文章平均质量分 94
韩向上
这个作者很懒,什么都没留下…
展开
-
Transformer2--Multi-head self-attention
为什么是multi-head self attention?**并行的处理多种注意力模式:**每个注意力头使用不同的线性变换,这意味着它们可以从输入序列的不同子空间中学习不同的特征关联。这样一来,模型可以通过多个注意力头同时关注输入序列的不同方面,如一句话的语法结构、语义角色、主题转移等。**增加模型的学习能力和表达能力:**通过多个注意力头,由于每个头关注的特征不同,模型可以学习到更丰富的上下文信息,这样综合起来可以更加全面的理解和处理序列。原创 2024-06-26 11:40:20 · 1009 阅读 · 0 评论 -
Transformer1--self attention
找出任意两个输入的相关性。原创 2024-06-21 11:16:29 · 651 阅读 · 0 评论