pytorch dropout会减慢收敛_PyTorch中Transformer模型的搭建

最新推荐文章于 2024-07-03 17:48:49 发布

beginedc

最新推荐文章于 2024-07-03 17:48:49 发布

阅读量928

点赞数

文章标签： pytorch dropout会减慢收敛

本文链接：https://blog.csdn.net/weixin_29230805/article/details/113314236

版权

本文介绍了如何在PyTorch 1.2版本中搭建Sequence2sequence形式的Transformer模型，重点关注PositionEncoding层，包括无参数和有可学习参数的实现。作者比较了两种PositionEncoding层在序列预测任务中的效果，并指出带有参数的层通常表现更好。最后，讨论了Transformer模型在训练过程中的并行解码特点。

摘要由CSDN通过智能技术生成

PyTorch最近版本更新很快，1.2/1.3/1.4几乎是连着出，其中： 1.3/1.4版本主要是新增并完善了PyTorchMobile移动端部署模块和模型量化模块。而1.2版中一个重要的更新就是把加入了NLP领域中炙手可热的Transformer模型，这里记录一下PyTorch中Transformer模型的用法（代码写于1.2版本，没有在1.3/1.4版本测试）。

1. 简介

也许是为了更方便地搭建Bert，GPT-2之类的NLP模型，PyTorch将Transformer相关的模型分为nn.TransformerEncoderLayer、nn.TransformerDecoderLayer、nn.LayerNorm等几个部分。搭建模型的时候不一定都会用到，比如fastai中的Transformer模型就只用到了encoder部分，没有用到decoder。

至于WordEmbedding和PositionEncoding两个部分需要自己另外实现。

WordEmbedding可以直接使用PyTorch自带的nn.Embedding层。

PositionEncoding层的花样就多了，不同的模型下面有不同的PositionEncoding，比如Transformer的原始论文Attention is all you need中使用的是无参数的PositionEncoding， Bert中使用的是带有学习参数的PositionEncoding。

在本文中介绍的是参考Transformer原始论文实现的Sequence2sequence形式的Transformer模型。

2. Sequence2sequence形式的Transformer模型搭建：

2.1 无可学习参数的PositionEnc

最低0.47元/天解锁文章

beginedc

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
pytorch dropout会减慢收敛_PyTorch中Transformer模型的搭建

PyTorch最近版本更新很快，1.2/1.3/1.4几乎是连着出，其中： 1.3/1.4版本主要是新增并完善了PyTorchMobile移动端部署模块和模型量化模块。而1.2版中一个重要的更新就是把加入了NLP领域中炙手可热的Transformer模型，这里记录一下PyTorch中Transformer模型的用法（代码写于1.2版本，没有在1.3/1.4版本测试）。1. 简介也许是为了更方便地...
复制链接

扫一扫