Transformer,RNN,及注意力框架结构图

1 RNN

transfomer利用了注意力,注意力结合了RNN

1.1 CNN与RNN

RNN加入了时间信息(序列)

RNN 能动态的更新信息

1.2 RNN示意图

1.3 RNN与LSTM

——拓展,时序超过十步就记不住了,导致长期依赖以及梯度问题

RNN架构

LSTM架构

Ct:传递长期记忆,更新短期记忆

长期记忆链与短期记忆链相互更新

二维看三维图像

遗忘门:删除日记内容

输入门:增添日记内容

输出门:翻到哪一页读给隐藏层听

sigmoid控制更新信息的比例,tanh控制大小和方向“ sigmoid的值域是0到1,值输入值越大,输出值越接近1,相反则接近0。tanh的值域是-1到1,一样的道理,由正负控制参数变化方向。

【【LSTM长短期记忆网络】3D模型一目了然,带你领略算法背后的逻辑】【LSTM长短期记忆网络】3D模型一目了然,带你领略算法背后的逻辑_哔哩哔哩_bilibili

【【数之道 09】揭开循环神经网络RNN模型的面纱】【数之道 09】揭开循环神经网络RNN模型的面纱_哔哩哔哩_bilibili

1.3.1 LSTM与GRU

GRU:阅后即焚,只保留大脑中的记忆

不断融合更新(背诵),有效解决长期依赖问题

【【GRU 模型】三招让你对她念念不忘】【GRU 模型】三招让你对她念念不忘_哔哩哔哩_bilibili

1.4 RNN灵活性(应用)

机器翻译,文本翻译

2 Transformer

2.1 transformer模型

细节:

2.2 attention

加权求和——理解context

动态翻译

两个RNN结构:

压缩成相同长度编码C——精度下降

RNN顺序结构不方便,难以并行计算。attention已经进行了权重打分

人类视觉系统,有限注意力集中在重点信息上

attention三大优点

【【Attention 注意力机制】激情告白transformer、Bert、GNN的精髓】【Attention 注意力机制】激情告白transformer、Bert、GNN的精髓_哔哩哔哩_bilibili

发展过程

关注到attention

越发走红

2.3 self attention详解

经过一系列矩阵计算,实现了单词间的权重计算

矩阵语言:

2.4 多头注意力机制

multi-head attention中使用了八个不同的权重矩阵(一件事找八个人干)——消除Q,K,V初始值的影响

【【Transformer模型】曼妙动画轻松学,形象比喻贼好记】【Transformer模型】曼妙动画轻松学,形象比喻贼好记_哔哩哔哩_bilibili

附—BERT

encoder:上下文理解,语句拆解对照表

decoder:从一种语言到另外一种语言的映射,语言组装对照表

3.4亿个参数,无数个编码器组成

【【BERT模型】暴力的美学,协作的力量】【BERT模型】暴力的美学,协作的力量_哔哩哔哩_bilibili

2.5 Vit ——vision transformer

同bert

【【ViT模型】Transformer向视觉领域开疆拓土……】【ViT模型】Transformer向视觉领域开疆拓土……_哔哩哔哩_bilibili

3 附—CNN与Transformer

transfomer向CV的进军:

参考链接

1.【【循环神经网络】5分钟搞懂RNN,3D动画深入浅出】【循环神经网络】5分钟搞懂RNN,3D动画深入浅出_哔哩哔哩_bilibili

2.【【LSTM长短期记忆网络】3D模型一目了然,带你领略算法背后的逻辑】【LSTM长短期记忆网络】3D模型一目了然,带你领略算法背后的逻辑_哔哩哔哩_bilibili

3.【【数之道 09】揭开循环神经网络RNN模型的面纱】【数之道 09】揭开循环神经网络RNN模型的面纱_哔哩哔哩_bilibili

4.【【Attention 注意力机制】激情告白transformer、Bert、GNN的精髓】【Attention 注意力机制】激情告白transformer、Bert、GNN的精髓_哔哩哔哩_bilibili

5.【【Transformer模型】曼妙动画轻松学,形象比喻贼好记】【Transformer模型】曼妙动画轻松学,形象比喻贼好记_哔哩哔哩_bilibili

6.【【BERT模型】暴力的美学,协作的力量】【BERT模型】暴力的美学,协作的力量_哔哩哔哩_bilibili

7.【【ViT模型】Transformer向视觉领域开疆拓土……】【ViT模型】Transformer向视觉领域开疆拓土……_哔哩哔哩_bilibili

Transformer模型是由Google在2017年提出的,它在自然语言处理(NLP)领域引起了革命性的变化,特别是用于机器翻译和语言模型等任务。Transformer模型的核心在于自注意力机制(Self-Attention),摒弃了传统的RNN(循环神经网络)中的递归结构,使得模型能够并行处理输入序列。 下面是Transformer模型的基本框架图介绍: 1. **输入嵌入**:首先,输入的词或字符序列被转换为密集的向量表示,这通常通过词嵌入(Word Embeddings)和位置编码(Positional Encoding)来完成。 2. **多层自注意力(Multi-head Attention)模块**:这是Transformer的核心部分,它包含多个注意力头(Head),每个头独立计算输入之间的相似度,并将结果合并。这个模块允许模型对不同部分的信息进行关注。 3. **前馈神经网络(Feedforward Networks)**:在自注意力之后,使用一个前馈神经网络进行点到点的特征变换,进一步提取输入信息。 4. **残差连接(Residual Connections)**:为了缓解梯度消失或爆炸的问题,Transformer模型在每层之间添加了残差连接,使得信息能够直接从上一层传递到下一层。 5. **层间归一化(Layer Normalization)**:在自注意力和前馈网络之后,通常会进行层间归一化,以稳定每一层的输出分布。 6. **点积注意力(Dot Product Attention)**:在自注意力模块中,通过计算查询(Query)、键(Key)和值(Value)之间的点积,然后通过softmax函数得到注意力权重。 7. **堆叠(Stacking)**:为了增加模型的表达能力,Transformer模型通常由多个这样的编码器(Encoder)或解码器(Decoder)堆叠而成,每个层次之间共享参数。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值