Transformer简单理解

姓蔡小朋友

已于 2024-07-20 17:22:43 修改

阅读量994

点赞数 18

分类专栏：机器学习文章标签： transformer 深度学习人工智能

于 2024-01-16 12:00:38 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_53881899/article/details/135618767

版权

机器学习专栏收录该内容

32 篇文章 9 订阅

订阅专栏

目录

一、CNN存在的问题：
二.Transformer整理架构分析：
三.Transformer Encoder公式解读：

一、CNN存在的问题：

过拟合问题。
需要堆叠大量卷积层才能识别图片的整体特征，每层卷积层需要重复的实验和证明。而Transformer的Encoder只需要堆叠少量层就能识别图片的整体。

二.Transformer整理架构分析：

在这里插入图片描述

首先将图片分隔成小的图片，对每个小图片的矩阵（10103）进行拉长形成一个向量（300*1），作为输入序列。
Linear Projection of Flattened Patches层对输入的向量（300*1）做一个特征整合形成多个新维度的向量Patch。

1.Linear Projection of Flattened Patches层形成Patch：

在这里插入图片描述

因为x1,x2,x3,x4之间是有联系的，首先对输入向量x1,x2,x3,x4进行特征提取，即把输入序列中的每个单元组合成比较好的新的特征。
x1与x2,x3,x4之间的关系式由q1,k1,v1给出。
q1为x1的查询向量，通过查询向量可以获得x1与x2,x3,x4之间的关系。
k1为其他的xi调用qi查询x1时为qi提供的自身信息。
v1为x1特征的代表，k-v为键值对。
执行过程：首先各向量通过qi查询其余向量的k，获取自己与其余向量的关系，通过关系实际上得到了一组权重项，根据权重项把输入特征进行重新组合，形成比较好的新的特征。

2.对每个Patch进行位置编码Position Embedding：

有2种编码方式：
- 对小图片进行从上至下，从左至右进行1,2,3,4,5,6,7,8,9编码
- 对小图片进行(1,1),(1,2),(1,3),(2,1),(2,2),(2,3),(3,1),(3,2),(3,3)编码

3.Transformer Encoder:

在这里插入图片描述

Lx表示Transformer做了多次
Embedded Patches输入序列
Norm规划层
⊕为残差连接
Multi-Head Attention多头注意力机制
MLP全连接

三.Transformer Encoder公式解读：

在这里插入图片描述

E为向量编码
- PP表示向量的个数，C为每个向量的维度（C,1）。特征图大小为PP*C
- D为全连接映射，xD即把（C,1）维向量映射为（D,1）维向量的规模
Epos为位置编码，即对每个向量在位置上进行编码
- N+1中的1即为整体架构图中的0号patch，它的作用是方便对各个输入向量进行整合。
z0作用是将各个向量与自身的位置进行组合（相加实现）
- xpE表示对E中每个向量，xclass为0号patch
MSA为多头注意力机制
- LN表示对输入数据进行规划
- +为残差连接
MLP为全连接
LN为对上述操作执行n次

姓蔡小朋友

关注

18
点赞
踩
23

收藏

觉得还不错? 一键收藏
打赏
0
评论
Transformer简单理解

Transformer简单理解
复制链接

扫一扫

专栏目录

姓蔡小朋友 CSDN认证博客专家 CSDN认证企业博客

码龄4年

Java领域优质创作者

291: 原创

2100: 周排名

7504: 总排名

26万+: 访问

: 等级

3899: 积分

1万+: 粉丝

950: 获赞

83: 评论

1606: 收藏

私信

关注

热门文章

分类专栏

数据分析 3篇
机器学习 32篇
深度学习 12篇
Pytorch 5篇
JavaWEB 30篇
Vue 8篇
算法 21篇
Python 1篇
HTML+CSS 3篇
计算机网络 3篇
Android开发 15篇
Javase 31篇
Spring 7篇
Maven 6篇
设计模式 4篇
SpringMVC 14篇
MyBatis 23篇
数据结构C语言 7篇
jQuery 10篇
Hibernate 5篇
操作系统 2篇
JavaScript 28篇
Bootstrap 1篇
AJAX 12篇
JDBC 4篇
XML解析 3篇

最新评论

Informer：高效长序列时间序列预测模型（更新中）
奶香菠萝包: preds = preds.reshape(-1, preds.shape[-2], preds.shape[-1]) IndexError: tuple index out of range你好我想请问一下怎么解决他预测之后是空值的问题呀，preds和trues都是空的
Informer：高效长序列时间序列预测模型（更新中）
leeleoo: 想问一下大佬，使用数据集Traffic时，它的列数太多了enc和dec为862，那参数d_model是不是只能是912，但是这样的话会显示内存满了，有什么解决办法吗？
Informer：高效长序列时间序列预测模型（更新中）
你的名字（学习中）: 博主好，我用我的数据集运行出来后预测部分是这样的，没预测结果，数据集共457条，是因为我的数据集太少了嘛，还是我的参数填错了呀？informer_custom_ftMS_sl72_ll48_pl10_dm624_nh15_el2_dl1_df2048_atprob_fc5_ebtimeF_dtTrue_mxTrue_test_0<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<< pred 1
Informer：高效长序列时间序列预测模型（更新中）
你的名字（学习中）: 你好，请问你解决了嘛，我也出现了这个问题
Informer：高效长序列时间序列预测模型（更新中）
姓蔡小朋友: 我就画了第一个batch的真实值和预测值

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

姓蔡小朋友 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。