1 RNN
transfomer利用了注意力,注意力结合了RNN
1.1 CNN与RNN
RNN加入了时间信息(序列)
RNN 能动态的更新信息
1.2 RNN示意图
1.3 RNN与LSTM
——拓展,时序超过十步就记不住了,导致长期依赖以及梯度问题
RNN架构
LSTM架构
Ct:传递长期记忆,更新短期记忆
长期记忆链与短期记忆链相互更新
二维看三维图像
遗忘门:删除日记内容
输入门:增添日记内容
输出门:翻到哪一页读给隐藏层听
”sigmoid控制更新信息的比例,tanh控制大小和方向“ sigmoid的值域是0到1,值输入值越大,输出值越接近1,相反则接近0。tanh的值域是-1到1,一样的道理,由正负控制参数变化方向。
【【LSTM长短期记忆网络】3D模型一目了然,带你领略算法背后的逻辑】【LSTM长短期记忆网络】3D模型一目了然,带你领略算法背后的逻辑_哔哩哔哩_bilibili
【【数之道 09】揭开循环神经网络RNN模型的面纱】【数之道 09】揭开循环神经网络RNN模型的面纱_哔哩哔哩_bilibili
1.3.1 LSTM与GRU
GRU:阅后即焚,只保留大脑中的记忆
不断融合更新(背诵),有效解决长期依赖问题
【【GRU 模型】三招让你对她念念不忘】【GRU 模型】三招让你对她念念不忘_哔哩哔哩_bilibili
1.4 RNN灵活性(应用)
机器翻译,文本翻译
2 Transformer
2.1 transformer模型
细节:
2.2 attention
加权求和——理解context
动态翻译
两个RNN结构:
压缩成相同长度编码C——精度下降
RNN顺序结构不方便,难以并行计算。attention已经进行了权重打分
人类视觉系统,有限注意力集中在重点信息上
attention三大优点
【【Attention 注意力机制】激情告白transformer、Bert、GNN的精髓】【Attention 注意力机制】激情告白transformer、Bert、GNN的精髓_哔哩哔哩_bilibili
发展过程
关注到attention
越发走红
2.3 self attention详解
经过一系列矩阵计算,实现了单词间的权重计算
矩阵语言:
2.4 多头注意力机制
multi-head attention中使用了八个不同的权重矩阵(一件事找八个人干)——消除Q,K,V初始值的影响
【【Transformer模型】曼妙动画轻松学,形象比喻贼好记】【Transformer模型】曼妙动画轻松学,形象比喻贼好记_哔哩哔哩_bilibili
附—BERT
encoder:上下文理解,语句拆解对照表
decoder:从一种语言到另外一种语言的映射,语言组装对照表
3.4亿个参数,无数个编码器组成
【【BERT模型】暴力的美学,协作的力量】【BERT模型】暴力的美学,协作的力量_哔哩哔哩_bilibili
2.5 Vit ——vision transformer
同bert
【【ViT模型】Transformer向视觉领域开疆拓土……】【ViT模型】Transformer向视觉领域开疆拓土……_哔哩哔哩_bilibili
3 附—CNN与Transformer
transfomer向CV的进军:
参考链接
1.【【循环神经网络】5分钟搞懂RNN,3D动画深入浅出】【循环神经网络】5分钟搞懂RNN,3D动画深入浅出_哔哩哔哩_bilibili
2.【【LSTM长短期记忆网络】3D模型一目了然,带你领略算法背后的逻辑】【LSTM长短期记忆网络】3D模型一目了然,带你领略算法背后的逻辑_哔哩哔哩_bilibili
3.【【数之道 09】揭开循环神经网络RNN模型的面纱】【数之道 09】揭开循环神经网络RNN模型的面纱_哔哩哔哩_bilibili
4.【【Attention 注意力机制】激情告白transformer、Bert、GNN的精髓】【Attention 注意力机制】激情告白transformer、Bert、GNN的精髓_哔哩哔哩_bilibili
5.【【Transformer模型】曼妙动画轻松学,形象比喻贼好记】【Transformer模型】曼妙动画轻松学,形象比喻贼好记_哔哩哔哩_bilibili
6.【【BERT模型】暴力的美学,协作的力量】【BERT模型】暴力的美学,协作的力量_哔哩哔哩_bilibili
7.【【ViT模型】Transformer向视觉领域开疆拓土……】【ViT模型】Transformer向视觉领域开疆拓土……_哔哩哔哩_bilibili