Transformer论文理解

最新推荐文章于 2024-08-26 08:54:09 发布

皮卡丘裤不酷

最新推荐文章于 2024-08-26 08:54:09 发布

阅读量295

点赞数 5

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_56487684/article/details/140626962

版权

学习一个东西之前首先要明白要去了解什么？

概念（组成），性质，特点，作用（用处）

概念：

transformer是一种自然语言处理(NLP)和其他序列到序列（seq2seq)任务（如文本翻译）的深度学习架构。它是2017你那由Vaswani等人首次提出。

其创新点在于引入了自注意力机制，同时还用好了残差连接和层归一化。

其他补充：

softmax是一种逻辑函数，将一组实数转化为概率分布，即输出一个实数向量，‌其中每个元素的值都在0到1之间，‌且所有元素之和等于1。‌ 与hardmax不同的是，hardmax直接选择最大值，而softmax是给每个赋予概率值，对于处理复杂问题更为合理。此外，‌Softmax的使用还有助于解决梯度问题，‌因为在神经网络中使用Softmax可以避免梯度稀疏性问题，‌使得训练过程更加稳定和有效

scales：指的是多尺度特征的集合，这些特征是从不同尺度的卷积核中提取出来的（用于提高模型的鲁棒性和精度），这种多尺度的处理方法在深度学习的多个领域中都有应用，‌旨在提高模型对不同尺寸对象的识别和处理能力。

matmul通常指的是矩阵乘法操作.matmul函数用于执行这种计算。‌矩阵乘法是神经网络中不可或缺的操作，‌因为它允许网络层之间的信息传递和变换。‌(matmul是矩阵相乘，本文作用是对不同的key赋予不同quary值）

mask:通常指的是一种技术或方法，对图像或数据进行特定区域遮挡或处理，进而让感兴趣（有用）的部分更加凸显。常用作屏蔽不重要部分，提取有用部分，结构特征的提取等。

tensor（张量）：高维度的数据容器，多维数组。标量就是0维张量，向量就是1维张量，矩阵就是二维张量。他们区别如下图：

参考：

原英文论文地址：https://arxiv.org/abs/1706.03762

Transformer详解-CSDN博客（含代码）https://github.com/Meituan-AutoML/Twins

【超详细】【原理篇&实战篇】一文读懂Transformer-CSDN博客

皮卡丘裤不酷

关注

5
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Transformer论文理解

softmax是一种逻辑函数，将一组实数转化为概率分布，即输出一个实数向量，‌其中每个元素的值都在0到1之间，‌且所有元素之和等于1。‌ 与hardmax不同的是，hardmax直接选择最大值，而softmax是给每个赋予概率值，对于处理复杂问题更为合理。scales：指的是多尺度特征的集合，这些特征是从不同尺度的卷积核中提取出来的（用于提高模型的鲁棒性和精度），这种多尺度的处理方法在深度学习的多个领域中都有应用，‌旨在提高模型对不同尺寸对象的识别和处理能力。概念（组成），性质，特点，作用（用处）
复制链接

扫一扫

皮卡丘裤不酷 CSDN认证博客专家 CSDN认证企业博客

码龄3年

60: 原创

8万+: 周排名

3万+: 总排名

2万+: 访问

: 等级

849: 积分

175: 粉丝

234: 获赞

14: 评论

152: 收藏

私信

关注

热门文章

分类专栏

LaTex 1篇
心理学 1篇

最新评论

《 FCA-Net:Fullycontext-aware feature aggregation networkformedical segmentation》论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
《从U-Net到Transformer：深度模型在医学图像分割中的应用综述》论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
各类积分存在条件
2301_81073844: 明白了原函数不存在，但是不定积分存在，不定积分的结果是原函数
各类积分存在条件
2301_81073844: 不定积分可以存在第一类间断点?
latex 的double superscript报错
CSDN-Ada助手: 恭喜您发布了第18篇博客！不断分享知识和经验确实是一件令人欣慰的事情。关于您提到的latex的double superscript报错问题，希望您能在未来的博客中分享更多关于latex的技巧和解决方法，让更多人受益。期待您的下一篇作品！祝您创作顺利！

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。