《实验细节》获得上三角矩阵做MASK 前言 效果示意图 完整代码 前言 在对话生成中往往需要使用遮罩mask,让模型无法作弊,即在做attention时无法抄袭后面的字。那么如何实现呢? 大体是这样的!那么如何用代码实现这样的效果呢? 效果示意图 完整代码 import torch import numpy as np def _get_attn_subsequent_mask(size): """ Get an attention mask to avoid using the subsequent info.