对于本文中所写的内容,我仍有一个疑惑就是QKV这三个矩阵到底是干什么用的, 本文只是浅谈了它的作用,并没有加以解释,因此打算再查阅一些详细资料。
论文相关知识:self-attention与Multi-Head Attention详解
最新推荐文章于 2022-10-07 20:18:27 发布
对于本文中所写的内容,我仍有一个疑惑就是QKV这三个矩阵到底是干什么用的, 本文只是浅谈了它的作用,并没有加以解释,因此打算再查阅一些详细资料。