随写transformer

最新推荐文章于 2024-08-29 19:30:55 发布

53年7月11天

最新推荐文章于 2024-08-29 19:30:55 发布

阅读量234

点赞数 10

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_56741459/article/details/140474198

版权

作为针对序列建模的模型，RNN，LSTM在以序列为主要呈现形式的NLP任务上展现出远超CNN的卓越性能。但是仍有缺陷：

RNN为单向依序计算，序列需要依次输入，串行计算，限制了计算机的并行计算能力，导致时间成本过高。
RNN难以捕捉长期依赖问题，即对于极长的序列，RNN难以捕捉远距离输入之间的关系。虽然LSTM通过门机制对此进行了一定优化，但RNN对长期依赖问题的捕捉能力仍然不如人意。

针对上述两个问题，2017年，Vaswani 等人发表了论文《Attention Is All You Need》，抛弃了传统的 CNN、RNN 架构，提出了一种全新的完全基于 attention 机制的模型——Transformer，解决了上述问题，在较小的时间成本下取得了多个任务的 the-state-of-art 效果，并为自然语言处理任务提供了新的思路。

自此，attention 机制进入自然语言处理任务的主流架构，在 Transformer 的基础上，诞生了预训练-微调范式的多种经典模型如 Bert、GPT、T5 等。当然，同样是在 Transformer 的肩膀上，引入了 RLHF 机制、实现了大量参数建模的 ChatGPT 则带领 NLP 进入了全新的大模型时代。

但不管是预训练-微调范式的主流模型 Bert，还是大模型时代的主流模型 ChatGPT、LLaMA，Transformer 都是其最坚实的基座。

注意力公式Q与K乘积进行放缩的原因：

如果Q和K对应的维度比较大，softmax放缩时就非常容易受影响，使不同值之间的差异较大，从而影响梯度的稳定性，因此，要将Q和K乘积的结果做一个放缩。

关注

10
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
随写transformer

但不管是预训练-微调范式的主流模型 Bert，还是大模型时代的主流模型 ChatGPT、LLaMA，Transformer 都是其最坚实的基座。自此，attention 机制进入自然语言处理任务的主流架构，在 Transformer 的基础上，诞生了。的模型，RNN，LSTM在以序列为主要呈现形式的NLP任务上展现出远超CNN的卓越性能。，抛弃了传统的 CNN、RNN 架构，提出了一种全新的完全基于。，解决了上述问题，在较小的时间成本下取得了多个任务的。，因此，要将Q和K乘积的结果做一个放缩。
复制链接

扫一扫

53年7月11天 CSDN认证博客专家 CSDN认证企业博客

码龄3年

43: 原创

1万+: 周排名

3万+: 总排名

1万+: 访问

: 等级

926: 积分

327: 粉丝

484: 获赞

3: 评论

402: 收藏

私信

关注

热门文章

分类专栏

最新评论

从零开始重新学python第一天
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
CS224N Assignment 1: Exploring Word Vectors
CSDN-Ada助手: 恭喜您完成了第6篇博客《CS224N Assignment 1: Exploring Word Vectors》，看来您对词向量有着深入的探索和理解。希望您能继续保持创作的热情，分享更多关于自然语言处理的知识和经验。下一步，或许可以考虑深入探讨词向量在情感分析、文本生成等领域的应用，相信您一定会有更多有趣的发现和见解。期待您的下一篇作品！
cs224n课程学习
CSDN-Ada助手: 太棒了！看到你分享了关于cs224n课程学习的资料地址，我觉得你对学习的热情和努力真的让人佩服。除了资源地址，你还可以尝试参加相关的在线讨论社区，与其他学习者交流心得和解决问题，这样可以更全面地理解课程内容。此外，深入了解自然语言处理领域的相关算法和模型，比如word embedding、BERT等，将有助于更好地理解和应用课程中的知识。继续努力，加油！期待看到更多关于学习经验分享的文章。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
变量声明位置引发的断触c++学习
CSDN-Ada助手: 恭喜你开始了博客创作！标题中提到变量声明位置引发的断触问题，这是一个很有深度的话题。接下来，建议你可以深入探讨一些实际的例子，结合代码来解释这个问题，让读者更容易理解。希望你能继续坚持写作，不断学习和进步！祝你的博客越来越受欢迎！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。