transformer的self attention和multi-head attention结构

最新推荐文章于 2024-10-04 05:55:37 发布

qq_44700408

最新推荐文章于 2024-10-04 05:55:37 发布

阅读量1k

点赞数

分类专栏：笔记文章标签：计算机视觉 transformer

本文链接：https://blog.csdn.net/qq_44700408/article/details/124276377

版权

笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

论文在scaled dot-product attention和muliti-head attention两部分所用符号dk、dv其实不相等，第一部分中的dk=dv=512，第二部分dk=dv=64。
其中self attention和multi-head attention结构可视化如图。所以其实两个结构的输入输出都是相同维度，只是第二种结构将输入拆分成了h个self attention。
transformer的self attention和multi-head attention结构