自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

season77us的博客

王椗 CSDN认证博客专家 CSDN认证企业博客

码龄14年

5: 原创

24万+: 周排名

164万+: 总排名

3万+: 访问

: 等级

265: 积分

3: 粉丝

26: 获赞

21: 评论

84: 收藏

私信

关注

热门文章

分类专栏

NLP 2篇

最新评论

如何下载Hugging Face 模型（pytorch_model.bin, config.json, vocab.txt）以及如何在local使用
greyovo: 清华在阿里云上放了这个model，下载如下： [code=plain] mkdir bert-base-uncased wget -P bert-base-uncased https://thunlp.oss-cn-qingdao.aliyuncs.com/opennre/pretrain/bert-base-uncased/config.json wget -P bert-base-uncased https://thunlp.oss-cn-qingdao.aliyuncs.com/opennre/pretrain/bert-base-uncased/pytorch_model.bin wget -P bert-base-uncased https://thunlp.oss-cn-qingdao.aliyuncs.com/opennre/pretrain/bert-base-uncased/vocab.txt [/code]
在测试或者预测时，Transformer里decoder为什么还需要seq mask？
阿拉很ellllllllllll: 答非所问啊。题目是预测，回答的是训练。
在测试或者预测时，Transformer里decoder为什么还需要seq mask？
Tobi_Obito: 然而在实际过程中，如果你在inference阶段保证了每次输入的都是第一次预测出的词，并且每个step只取最后一个位置的词，那么其实前面的词乱套不一致也无所谓了，这时往往也就不用这个seq mask了。
在测试或者预测时，Transformer里decoder为什么还需要seq mask？
Tobi_Obito: 每一step的输出仍然是batch x L x vocab_size，注意L是当前已预测长度而不是1，这就意味着每次其实还是对之前的词进行过预测的，那么如果不再用三角矩阵seq mask，就会导致在后面第k step的预测中，第k-1,k-2,...,0个词所看到的信息与在预测他们时的第k-1,k-2,...,0 step不一致，就拿博主举例来说，在第0 step预测时，<s>只能看到自身，预测出了“我”，在第1 step预测时，如果不用seq mask，那么<s>不仅看到了自身，还看到了“我”，就会导致第 1 step的预测结果中第0个词可能不再是<s>，预测结果可能是“我”“我”而不是<s>“我”，也就是说当前时间步的预测结果会与之前的预测不一致，那就乱套了。所以说到底，即使预测出了后面的词，对前面的词的预测也不该看到后面的词。注意理解的一个关键点在于每一个step的预测过程并非只是预测1个词，而是仍然预测当前【及当前位置之前的所有词】
在测试或者预测时，Transformer里decoder为什么还需要seq mask？
Tombon: 我感觉是作者理解错了，另外确实因该将transformer的训练和推理预测过程区分来看，这样就能理解mask是为了训练并行的代价吧

最新文章

NLP

关注

关注数：文章数：2 文章阅读量：32461 文章收藏量：73

作者: 王椗

这个作者很懒，什么都没留下…

展开