Transformer论文理解

学习一个东西之前首先要明白要去了解什么?

概念(组成),性质,特点,作用(用处)

概念:

        transformer是一种自然语言处理(NLP)和其他序列到序列(seq2seq)任务(如文本翻译)的深度学习架构。它是2017你那由Vaswani等人首次提出。

        其创新点在于引入了自注意力机制,同时还用好了残差连接和层归一化。

其他补充:

softmax是一种逻辑函数,将一组实数转化为概率分布, 即输出一个实数向量,‌其中每个元素的值都在0到1之间,‌且所有元素之和等于1。‌ 与hardmax不同的是,hardmax直接选择最大值,而softmax是给每个赋予概率值,对于处理复杂问题更为合理。此外,‌Softmax的使用还有助于解决梯度问题,‌因为在神经网络中使用Softmax可以避免梯度稀疏性问题,‌使得训练过程更加稳定和有效

scales:指的是多尺度特征的集合,这些特征是从不同尺度的卷积核中提取出来的(用于提高模型的鲁棒性和精度),这种多尺度的处理方法在深度学习的多个领域中都有应用,‌旨在提高模型对不同尺寸对象的识别和处理能力。

matmul通常指的是矩阵乘法操作.matmul函数用于执行这种计算。‌矩阵乘法是神经网络中不可或缺的操作,‌因为它允许网络层之间的信息传递和变换。‌(matmul是矩阵相乘,本文作用是对不同的key赋予不同quary值)

mask:通常指的是一种技术或方法,对图像或数据进行特定区域遮挡或处理,进而让感兴趣(有用)的部分更加凸显。常用作屏蔽不重要部分,提取有用部分,结构特征的提取等。

tensor(张量):高维度的数据容器,多维数组。标量就是0维张量,向量就是1维张量,矩阵就是二维张量。他们区别如下图:

      

参考:

原英文论文地址:https://arxiv.org/abs/1706.03762

Transformer详解-CSDN博客(含代码)https://github.com/Meituan-AutoML/Twins

【超详细】【原理篇&实战篇】一文读懂Transformer-CSDN博客

  • 5
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值