Transformer模型中各个结构的理解

Transformer模型由Encoder和Decoder两部分组成。

Encoder的输入即是原始的word embedding。

Transformer模型中没有递归也没有卷积,所有以序列中每个标记的绝对(或相对)位置的信息用位置编码来表示。

第一个子层是Multi-Head Attention层,该子层利用多头注意力机制,利用线性变换将Q、K、V映射到不同的子空间(论文中num_heads = 8),从而希望可以学习到单词的不同表示。

Transformer模型使用了多层注意力机制来代替了single self-attention,以此来提升模型的效果。Multi-Head Attention的效果体现在以下两个方面:
(1)扩展了模型关注不同位置的能力。在不同的context中,使得单词"it"关注到不同的target word。
(2)增强了Attention机制对关注句子内部单词之间作用的表达能力。相比于single self-attention, Multi-Head Attention中的each head都维持了一个自己的Q、K、V矩阵,实现不同的线性转换,这样每个head也就有了自己特殊的表达信息。

背后的原理即是,当翻译一个单词的时候,会基于所问的问题的类型来对每个单词给予不同的关注程度

Multi-Head Attention层后跟了一个Layer Normalizaiton用来对Attention输出的新的word representation进行标准化处理,以及一个Residual Network。

采用了Residual Network的作用是利用了残差网络可以当层数加深

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
下面是一个简化的示意图,展示了Transformer分类模型结构: ``` Input │ ▼ Embedding │ ▼ Positional Encoding │ ▼ Encoder │ ▼ Global Average Pooling │ ▼ Fully Connected Layer │ ▼ Softmax │ ▼ Output (Class Scores) ``` 在这个示意图,我略去了一些细节,但核心组件仍然存在。让我解释一下每个组件的作用: 1. 输入(Input):输入数据,可以是文本、图像等。 2. 嵌入层(Embedding):将输入数据映射到一个高维向量空间,以便计算机能够更好地理解输入的含义。 3. 位置编码(Positional Encoding):为了在输入数据保留顺序信息,将位置信息编码到向量表示,以便Transformer模型能够感知输入数据的顺序。 4. 编码器(Encoder):由多个相同结构的编码层(Encoder Layer)堆叠而成。每个编码层包含了多头自注意力机制(Multi-Head Self-Attention)和前馈神经网络(Feed-Forward Neural Network)。 5. 全局平均池化(Global Average Pooling):对编码器的输出进行全局平均池化操作,将每个特征向量的维度缩减为1。这有助于减少参数数量并提取整体特征。 6. 全连接层(Fully Connected Layer):将全局平均池化后的特征向量映射到分类空间,得到每个类别的分数。 7. Softmax:对每个类别的分数进行归一化,得到概率分布。 8. 输出(Class Scores):最终得到每个类别的分数或概率。 这个示意图展示了Transformer分类模型的整体结构,从输入到输出的流程,帮助理解模型的各个组件以及数据的流动方式。请注意,这仅是一个简化的示意图,实际模型可能还包含其他组件和连接。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值