中mask设置_NLP 中的Mask全解

最新推荐文章于 2024-06-24 13:47:33 发布

腾讯天美工作室群

最新推荐文章于 2024-06-24 13:47:33 发布

阅读量896

点赞数

文章标签：中mask设置

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_30632267/article/details/112613491

版权

Mask 在NLP中是一个很常规的操作，也有多种应用的场景和形式，下面尝试从以下几个方面去全（用了夸张的修辞手法）解Mask，并尽可能地辅以图片说明和代码解释： Mask的作用：处理非定长序列RNN中的Mask Attention中Mask防止标签泄露Transformer中的MaskBERT中的MaskXLNet中的MaskMask的作用对于NLP中mask的作用，先上结论...

摘要由CSDN通过智能技术生成

Mask 在NLP中是一个很常规的操作，也有多种应用的场景和形式，下面尝试从以下几个方面去全（用了夸张的修辞手法）解Mask，并尽可能地辅以图片说明和代码解释：

Mask的作用：
- 处理非定长序列
  - RNN中的Mask
  - Attention中Mask
- 防止标签泄露
  - Transformer中的Mask
  - BERT中的Mask
  - XLNet中的Mask

Mask的作用

对于NLP中mask的作用，先上结论：

1、padding mask：处理非定长序列，区分padding和非padding部分，如在RNN等模型和Attention机制中的应用等
2、sequence mask：防止标签泄露，如：Transformer decoder中的mask矩阵，BERT中的[Mask]位，XLNet中的mask矩阵等
PS：padding mask 和 sequence mask非官方命名

处理非定长序列

在NLP中，文本一般是不定长的，所以在进行 batch训练之前，要先进行长度的统一，过长的句子可以通过truncating 截断到固定的长度，过短的句子可以通过 padding 增加到固定的长度，但是 padding 对应的字符只是为了统一长度，并没有实际的价值，因此希望在之后的计算中屏蔽它们，这时候就需要 Mask。

图片参考

上图为中文场景下，一个 batch=5 的，以字为单位的输入矩阵（也可以在分词后以词为单位）和 mask 矩阵，左图已经将文本 padding 到统一长度了，右图中的1表示有效字，0代表无效字。

RNN中的Mask

对于RNN等模型，本身是可以直接处理不定长数据的，因此它不需要提前告知 sequence length，如下是pytorch下的LSTM定义：

nn.LSTM(input_size, hidden_size, *args, **kwargs)

但是在实践中，为了 batch 训练，一般会把不定长的序列 padding 到相同长度，再用 mask 去区分非 padding 部分和 padding 部分。

区分的目的是使得R

最低0.47元/天解锁文章

腾讯天美工作室群

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
中mask设置_NLP 中的Mask全解

Mask 在NLP中是一个很常规的操作，也有多种应用的场景和形式，下面尝试从以下几个方面去全（用了夸张的修辞手法）解Mask，并尽可能地辅以图片说明和代码解释： Mask的作用：处理非定长序列RNN中的Mask Attention中Mask防止标签泄露Transformer中的MaskBERT中的MaskXLNet中的MaskMask的作用对于NLP中mask的作用，先上结论...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。