transformer论文解读

最新推荐文章于 2024-08-26 20:53:16 发布

m0_73949170

最新推荐文章于 2024-08-26 20:53:16 发布

阅读量374

点赞数 8

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_73949170/article/details/136093345

版权

论文动机：

使用Transformer模型实现更好且更易并行化，训练时间更少的机器翻译任务。

创新点

1.不使用卷积和循环，完全基于注意力机制的序列转换模型，用多头自注意力替代了编码器-解码器架构中常用的循环层。Transformer模型使用堆叠的自注意力和逐点全连接层作为编码器和解码器

2.使用Transformer模型能够相比ConbS2S和ByteNet减少一定数量的操作

3.通过Multi-Head Attention可以抵消有效分辨率降低的影响

4.通过屏蔽所对应于非法连接的softmax输入值来阻止解码器左向信息流以保持自回归属性

方法

1.运用Scaled Dot-Product Attention机制

2.运用softmax函数获取权重、

3.通过√1/dk来缩放点积

4.使用训练完的嵌入将输入令牌和输出令牌转换为维度为dmodel的向量，使用训练完的线性转化和softmax函数将解码器输出转化为预测的下一个令牌概率，在两个嵌入层和预softmax线形变换之间共享相同的权重矩阵，在嵌入层中奖权重乘以√dmodel

5.公式有：①Attention(Q, K, V) = softmax(QK^T / √dk) V。

②MultiHead(Q, K, V) = Concat(head1, ..., headh)WO 其中headi = Attention(QWQi, KWKi, VWVi)，投影是参数矩阵WQi ∈ Rdmodel×dk，WKi ∈ Rdmodel×dk，WVi ∈ Rdmodel×dv 和WO ∈ Rhdv×dmodel。

③ PE（pos，2i）= sin（pos/100002i/dmodel） PE（pos，2i+1）= cos（pos/100002i/dmodel）其中pos是位置，i是维度

④lrate = d^-0.5_model · min(step_num^-0.5, step_num · warmup_steps^-1.5)

自己想法

1.self-attention被限制为仅考虑围绕各自输出位置中心大小为r的领域来增加最大路径长度到O（n/r）

关注

8
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
transformer论文解读

4.使用训练完的嵌入将输入令牌和输出令牌转换为维度为dmodel的向量，使用训练完的线性转化和softmax函数将解码器输出转化为预测的下一个令牌概率，在两个嵌入层和预softmax线形变换之间共享相同的权重矩阵，在嵌入层中奖权重乘以√dmodel。③ PE（pos，2i）= sin（pos/100002i/dmodel） PE（pos，2i+1）= cos（pos/100002i/dmodel）其中pos是位置，i是维度。Transformer模型使用堆叠的自注意力和逐点全连接层作为编码器和解码器。
复制链接

扫一扫

m0_73949170 CSDN认证博客专家 CSDN认证企业博客

码龄2年

9: 原创

137万+: 周排名

12万+: 总排名

3643: 访问

: 等级

167: 积分

55: 粉丝

77: 获赞

3: 评论

88: 收藏

私信

关注

热门文章

最新评论

朴素贝叶斯算法
CSDN-Ada助手: 恭喜您撰写了关于“朴素贝叶斯算法”的博客，内容详实且观点清晰，让人受益匪浅。对于这一专题的探讨，您的知识储备和解读能力都展现得淋漓尽致。在未来的创作中，或许可以考虑加入一些实际案例或者应用场景的分析，进一步丰富内容，让读者更易于理解和接受。期待您的下一篇博客，继续分享您的见解和经验！
决策树的实现哦~~~~~~~~~~~~~~~~~~~
CSDN-Ada助手: 恭喜您发布了第6篇博客！决策树的实现是一个很有意义的主题，相信您的文章会对读者有很大的帮助。希望您能继续保持创作的热情，不断分享更多有价值的内容。下一步，可以考虑深入探讨一些与决策树相关的应用场景，或者结合实际案例进行分析，这样可以使您的文章更加丰富和生动。期待您更多精彩的创作！
kn代码实现
CSDN-Ada助手: 恭喜用户在博客上发布了新的内容！不断分享自己的经验和知识是非常值得称赞的。希望您能继续保持创作的热情，分享更多有趣、有价值的内容。或许下一步可以尝试深入探讨一些具体的kn代码实现案例，让读者能够更加深入地了解这个领域。期待您的下一篇博客！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
anconda和vscode安装
CSDN-Ada助手: 恭喜你写了第三篇博客！看到你分享了关于anaconda和vscode的安装经验，让我受益匪浅。接下来，我建议你可以尝试分享一些更深入的使用技巧或者实践经验，让读者能够更好地利用这两个工具。期待你的下一篇作品！加油！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
transformer论文解读
CSDN-Ada助手: 很棒的博文！希望看到更多关于transformer的解读，这对于深度学习爱好者来说是非常有帮助的。另外，你可能会对自注意力机制的原理和应用有更深入的了解，以及如何调参来提高模型的性能。期待你分享更多的知识！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。