参考见 ➡️ NLP 中的Mask全解
题目
transformer学习之Mask
mask作用
直译:面具
在Transformer中mask的作用有两个:
- 处理输入中序列长度不等的问题
- 防止模型在预测时提前知道未来的信息
mask处理非定长问题
在NLP领域中,一篇文章往往是由短则几百长则几万个句子构成的,每一个句子的长度不尽相同,所以在处理的时候会显得格外麻烦,因为在模型训练时需要将这些单词进行预处理,变成相同的词维度,而对于不等长的单词数不管在计算上还是后续理解上都增加了非常大的困难。
而一般常见的处理的方法是用某些数填平这些坑坑洼洼的洞,使其规整到一个方形盒子中。
如下图&#x