Transformer模型框架

qq_1532145264

已于 2024-08-20 16:39:19 修改

阅读量231

点赞数 3

分类专栏：机器学习文章标签： transformer 深度学习人工智能机器学习自然语言处理

于 2024-08-20 16:35:22 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_1532145264/article/details/137141228

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

Transformer 模型框架源自2017年论文《Attention is All You Need》

1、Transformer 结构

Transformer 整体框架由 Encoder 和 Decoder 组成，本质上是 Self-Attention 模型的叠加。

在这里插入图片描述

2、Encoder

Encoder 的主要作用是让机器更清楚的了解到句子中词的特征，或词与词的关系（图就表现在像素上）。Encoder 模型中通过输入词向量，输出新的词向量。

在这里插入图片描述

POSITIONAL ENCODING：让词向量蕴含词的相对位置信息。
残差结构的作用：避免出现梯度消失的情况。
Layer Norm 的作用：为了保证数据特征分布的稳定性，并且可以加速模型的收敛。

3、Decoder

Decoder 的主要作用根据 Encoder 了解到词的特征，预测新的词。

在这里插入图片描述

Decoder 中的 Self-Attention 采用 Masked Self-Attention ，在翻译上体现在已经翻译的结果将会对下一个要翻译的词都会有一定的贡献。

4、Transformer 工作流程

以翻译 “我是学生” 将德语翻译为英语为例：

在这里插入图片描述

题外话：第一性原理、本质

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Transformer模型框架

《Attention is All You Need》
复制链接

扫一扫

专栏目录

qq_1532145264 CSDN认证博客专家 CSDN认证企业博客

码龄1年

76: 原创

9万+: 周排名

2万+: 总排名

3万+: 访问

: 等级

1042: 积分

249: 粉丝

268: 获赞

22: 评论

617: 收藏

私信

关注

热门文章

分类专栏

产品经理 2篇
Java 10篇
数据库 4篇
Web 4篇
机器学习 10篇
数据分析 3篇
Linux 1篇
小程序
软件测试 1篇
Matlab 1篇
English 2篇
计算机基础知识（考研408） 5篇
数学 2篇
阅读书籍 21篇
科技财经 1篇
感悟 3篇
运动 1篇
社交
其他 6篇

最新评论

有点意思的求学之路
rYu1nser: 学长上岸到哪里了呀
基于MATLAB车牌识别系统设计
我不想再敲啦: 哥，你给的代码下载下来咋用啊
计算机基础知识（考研408）——操作系统
小心小心vx: 请问可以求一份文档吗？发到邮箱可以吗？349338829@qq.com，可以小偿！！
Python数据可视化第三方库pyecharts
CSDN-Ada助手: 恭喜您发布了第15篇博客！看到您对Python数据可视化第三方库pyecharts的深入探讨，我感到非常佩服。希望您能继续保持创作的热情和耐心，不断分享您的经验和见解。下一步，我建议您可以尝试结合实际案例，深入分析pyecharts在数据可视化中的应用，这样可以让读者更直观地理解pyecharts的强大之处。期待您更多的精彩内容，加油！
基于Python的城市招聘信息爬取和分析
CSDN-Ada助手: 恭喜作者在技术领域的深度探索，第16篇博客内容丰富，对Python的应用有着深入的研究和实践。希望作者能够继续保持创作的热情，不断分享自己的学习和实践经验。或许下一步可以考虑分享一些实际案例或者应用场景，让读者更好地理解Python在城市招聘信息爬取和分析中的具体应用。期待作者更多精彩的创作！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。