Transformer之机器翻译

通宵睡一宿

已于 2022-05-13 11:02:32 修改

阅读量731

点赞数 2

文章标签： transformer 机器翻译深度学习

于 2022-05-13 10:46:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_52116434/article/details/124746542

版权

话不多说，上图

那么如何用pytorch搭建一个自己的Transformer并且用到NMT上呢

实现思路：

首先是Encoder层，这个层由多个EncoderBLock组成，

每个block为：Attention + residual + LN + FC + residual + LN

最后得到一个 batch_size,in_seq_len,embedding_dim的矩阵(和初始输入一样)

然后是Decoder层，这个层我们也可以理解为多个DecoderBlock组成，

每个block为：Attention + residual + LN + Attention + residual + LN + FC + residual + LN

因为由于我们做训练的时候，我们给的output是整句话，但是做预测的时候，模型要一个字一个字输出，所以Decoder的Attention存在Mask,所以我们对每个输入都要得到一个Mask矩阵，decoder的mask是为了不能看到未来，encoder的mask是为了去掉pad与单词的联系

那么最后我们也可以得到一个 batch_size,out_seq_len,embedding的矩阵

最后连接一个FC层（embedding,tgt_vocab_size）和softmax，我们就可以得到每一个目标字（词）的概率值，最后计算一下交叉熵损失，值得说的是，比如我们的翻译句子为：你好

那么我们的output应该为：index(BOS) index(你) index(好),

那么算损失的时候我们的目标为：index(你) index(好) index(EOS)

attention原理就不再说明了，相信各位也有一定基础，网上也有很精简的解释

最后给出结果，可能是分词不够精确吧，英文我用的是字母为单位的，中文我用的单个字做单位，数据也是比较少，只用了5000句话做训练(有好的GPU可以试一下用大一点的数据集)，训练了2000轮，所以我感觉我现在训练的模型只是将句子背下来，没有创新能力，用单词作为单位可能会好一点(果然学深度学习确实很吃配置啊！)

上代码

对了如果要训练记得把config的device重新转为cuda就行

通宵睡一宿

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
3
评论
Transformer之机器翻译

pytorch实现transformer并且用作机器翻译任务
复制链接

扫一扫

通宵睡一宿 CSDN认证博客专家 CSDN认证企业博客

码龄4年

11: 原创

104万+: 周排名

21万+: 总排名

1万+: 访问

: 等级

164: 积分

621: 粉丝

29: 获赞

19: 评论

78: 收藏

私信

关注

热门文章

最新评论

不调包，用numpy实现svm，对鸢尾花进行二分类（smo算法）
aihm184: 作者大大好！请问为什么我把训练集的个数从100改为了150之后计算的时间长了很多很多，而且运行出来的结果很不准确，是还有别的地方需要修改吗
Transformer之机器翻译
三途残梦: 求个代码，连接失效了
numpy实现cnn
通宵睡一宿: 应该也没啥问题，好久没碰过这代码了，哈哈
numpy实现cnn
dny22遥遥领先: 请问对彩色图像也适用么
numpy实现cnn
weixin_43285784: 牛逼，写的又干净又清楚，希望可以加点注释

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。