其中,Q、K、V的维度都是nxk,n为句子中的单词数,k为每个单词的embedding维度,故self-attention的计算复杂度为。
self-attention
最新推荐文章于 2025-11-22 20:38:46 发布
本文解析了自注意力机制中,Q、K、V矩阵的维度n和k如何影响计算效率,重点讲解了计算复杂度背后的数学原理和实际应用中的关键点。
本文解析了自注意力机制中,Q、K、V矩阵的维度n和k如何影响计算效率,重点讲解了计算复杂度背后的数学原理和实际应用中的关键点。
其中,Q、K、V的维度都是nxk,n为句子中的单词数,k为每个单词的embedding维度,故self-attention的计算复杂度为。
3892
848
9万+

被折叠的 条评论
为什么被折叠?