多头注意力机制的理解与计算

多头注意力机制实质上是将原始的查询(Query)、键(Key)和值(Value)向量分成多组,每组分别进行处理,可以理解为多组QKV。

以下是常见问题(自用)

Q1:一般原始的qkv多大,分割后较小的qkv多大

A1:假设整个模型的核心维度d为512,头的数量h为8,那每个头处理的qkv维度会是d/h = 512/8 = 64。

通过这种分割方式,模型可以并行处理多个较小的Q、K、V,每个头关注于输入数据的不同表示子空间,从而增强模型的学习能力和灵活性。

Q2:.reshape(batch_size,-1,n_heads*d_v)中的-1什么意思

A2:在使用.reshape方法时,-1在形状参数中的作用是指示该维度的大小应该自动计算,以使得总的元素数量与原始数组保持一致。这是一个方便的方式,用于在不直接指定某个维度大小的情况下,调整数组或张量的形状。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值