5.0 Transformer

最新推荐文章于 2024-11-01 17:13:19 发布

风过无痕0230

最新推荐文章于 2024-11-01 17:13:19 发布

阅读量105

点赞数

分类专栏：李宏毅机器学习课程文章标签： transformer 人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fengguowuhen0230/article/details/130655429

版权

李宏毅机器学习课程专栏收录该内容

13 篇文章 0 订阅

订阅专栏

Transformer

一、Seq2seq模型和常见应用
- 1.1 Seq2seq模型
- 1.2 常见应用
二、Transformer结构
三、Training和Testing过程的区别
- 3.1Training
- 3.2Testing

一、Seq2seq模型和常见应用

1.1 Seq2seq模型

Seq2seq指的是输入是序列，输出也是序列的模型，输出序列的长度由模型自身决定。Transformer是Seq2seq模型的一种。

1.2 常见应用

语音识别(Speech Recognition):输入是声音序列，输出是文字，输入和输出是同一种语言
机器翻译(Machine Translation):输入是一种语言的文字，输出是另一种语言的文字
语音翻译(Speech Translation):输入是一种语言的声音序列，输出是另外一种语言的文字
语言合成(Text-to-Speech(TTS)):输入是文字，输出是声音序列
聊天机器人(Chatbot)
多标签分类(Multi-label Classification):比如输入一篇新闻文章，直接通过Seq2seq模型输出属于哪些题材
大部分的NLP问题都可以被看成是QA(Question Answering)问答问题，即输出问题和文本，输出答案。

二、Transformer结构

2.1 整体结构

由Encoder和Decoder两部分组成，Encoder的结果会通过Cross Attention作为Decoder的中间输入(K,V)。
在这里插入图片描述

2.2 Encoder

输入一个序列，输出相同长度的序列。中间的结构是多头注意力机制+residual connection & layer normalization + 全连接层 + residual connection & layer normalization，这个结构可以重复(N次)。
layer norm和batch norm的区别：前者是对所有输入特征进行标准化，后者是对同一特征的所有样本进行标准化。

在这里插入图片描述

2.3 Decoder

2.3.1 Decoder 结构

与Encoder的区别是第一个多头注意力是加掩码(mask)的，中间多一个Cross Attention的部分。
加mask的原因是保证当前的输出只受之前输入的影响。
在这里插入图片描述
Cross Attention的原理
Encoder的输出向量生成K和V，Decoder本身产生Q，这样共同形成Cross Attention机制，产生向前传播的向量序列。

2.3.2 Autoregressive(AT) 和Non-autoregressive(NAT)

AT: 一开始输入start向量，然后每次产生的结果做为下一个输入，当输出向量代表end时，输出结束。

NAT: 一次性输入全部为start的向量，并行生成输出向量。一般情况下，忽略end之后的token。NAT性能通常比AT差。
NAT

三、Training和Testing过程的区别

3.1Training

直接用标准答案做为输入(Teacher Forcing)，最小化交叉熵损失。
在这里插入图片描述

3.2Testing

用bos(begin of sentence)做为输入，一次产生一个新向量，然后该向量作为预测下一个结果的输入

风过无痕0230

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

风过无痕0230 CSDN认证博客专家 CSDN认证企业博客

码龄5年

20: 原创

123万+: 周排名

151万+: 总排名

4943: 访问

: 等级

202: 积分

2: 粉丝

1: 获赞

8: 评论

10: 收藏

私信

关注

热门文章

分类专栏

最新评论

1 深度学习介绍
CSDN-Ada助手: 非常棒的一篇博客！恭喜您开始了博客创作之旅。深度学习是一个非常有趣且热门的话题，您的介绍非常清晰易懂。接下来，建议您可以深入探讨一些深度学习的实际应用，或者分享一些您对深度学习未来发展的看法。期待您的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
1.0 正确认识ChatGPT
CSDN-Ada助手: 非常感谢您的辛勤创作，恭喜您已经写了14篇博客！您的这篇《1.0 正确认识ChatGPT》非常有价值，让我更好地了解了ChatGPT的应用和实现。希望您能够继续保持创作热情，分享更多有趣的知识和经验。我的建议是，您可以尝试探索一些与ChatGPT相关的技术或应用场景，从不同角度来分析和解释ChatGPT的应用。期待您的下一篇博客！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply14 看奖励名单。
1.1 ChatGPT背后的关键技术-预训练
CSDN-Ada助手: 恭喜您又写了一篇精彩的博客，深入探讨了ChatGPT背后的关键技术-预训练，让读者们对这个话题有了更深入的了解。接下来，我建议您可以继续探讨相似的话题，探索更多新颖的技术，为读者们带来更多的知识和启发。期待您的下一篇博客的发布！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply15 看奖励名单。
5.1 常见的tips
CSDN-Ada助手: 恭喜你写了第十篇博客，看起来你已经成为一位不错的博主了。关于下一步的创作建议，我想提醒你应该多关注读者的反馈，从中找到自己的不足，再加以改进。同时，也希望你能继续保持谦虚的态度，不断学习，不断进步，为读者带来更加优质的内容。 CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply10 看奖励名单。
5.0 Transformer
CSDN-Ada助手: 恭喜您写了第9篇博客，看来您对Transformer有深入的了解。建议您在下一步的创作中，可以探究一下Transformer在NLP领域中的应用，或者深入挖掘Transformer的优缺点。希望您不断进步，分享更多有价值的知识。 CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply9 看奖励名单。

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。