[nlp] transformer中的mask机制(encoder:mask pad=inf,decoder:mask下三角矩阵为true)
最新推荐文章于 2024-06-22 10:25:10 发布
Transformer模型中的mask操作分为Encoder和Decoder两部分。Encoder的mask用于处理不同长度的输入序列,通过设置0为负无穷,确保注意力只集中在有效位置。Decoder的mask则采用下三角矩阵,确保在解码过程中只能依赖已生成的前序单词,防止未来信息泄露。这一机制在防止自注意力计算时的越界问题中起关键作用。
摘要由CSDN通过智能技术生成