深入解析PyTorch中MultiheadAttention的参数key_padding_mask与attn

本文链接：https://blog.csdn.net/weixin_43495948/article/details/148061474

1. 基本背景

在multiheadattention中存在两个mask，一个参数是key_padding_mask，另外一个是attn_mask，尽管这两个参数是被人们所熟知的填充掩码和注意力掩码，但是深度理解以便清晰区分对于深刻理解该架构非常重要。

✅维度

# key_padding_mask shape: (batch_size, seq_len)

✅ 示例

key_padding_mask = torch.tensor([[False, False, True], [False, True, True]])
# 表示第一个样本第3个位置是pad，第二个样本第2,3个位置是pad

用途：对注意力矩阵中任意 query-key 对的连接进行屏蔽，更灵活。
场景：
- Transformer 解码器中的自回归遮蔽（causal mask）
- 限定注意力只能在局部范围内滑动（局部注意力）
- 自定义 mask，如节省计算或实验结构

✅ 维度

# [tgt_len, src_len]（用于所有 batch 和 head）
# 或 [batch_size * num_heads, tgt_len, src_len]（用于每个 head 的个性化 mask）

✅ 示例：causal mask

# 上三角为 True，代表“未来的信息被屏蔽”，用于解码器自回归。
tgt_len = 5
attn_mask = torch.triu(torch.ones(tgt_len, tgt_len), diagonal=1).bool()

在计算 $Q*K^T$ 之后：