论文在scaled dot-product attention和muliti-head attention两部分所用符号dk、dv其实不相等,第一部分中的dk=dv=512,第二部分dk=dv=64。
其中self attention和multi-head attention结构可视化如图。所以其实两个结构的输入输出都是相同维度,只是第二种结构将输入拆分成了h个self attention。
transformer的self attention和multi-head attention结构
最新推荐文章于 2024-10-04 05:55:37 发布