【深度学习|Transformer学习】 多头自注意力机制(Multi-Head Self-Attention)解析,多头自注意力机制中的QKV分别指的是什么?各有什么作用?你知道吗?
【深度学习|Transformer学习】 多头自注意力机制(Multi-Head Self-Attention)解析,多头自注意力机制中的QKV分别指的是什么?各有什么作用?你知道吗?
文章目录
多头自注意力机制(Multi-Head Self-Attention)解析
1. QKV:Query、Key、Value
在多头自注意力机制中,Q
、K
和 V
分别代表查询(Query)、键(Key)和值(Value)。这些是输入特征通过不同的线性变换得到的:
- Query (Q): 用于“询问”信息。它表示的是当前输入特征在其他特征中需要关注的