
Transformer 里的 Q K V 是什么
Transformer 作为新 AI 时代的基石,有必要深入了解下。网上对 Transformer 的教学文章/视频非常多,很多讲得很好,像,以及。整个详细过程原理写不来,本文主要记录一下其中我觉得比较容易混淆的 Attention 模块运算过程,主要是里面的 Q K V 的概念/运算过程/作用。
linux 操作基础
linux编程基础
计算机算法
云计算
论文写作
虚拟化机制
机器学习 & 分布式机器学习 
