Transformer学习总结二

最新推荐文章于 2024-03-20 06:30:00 发布

Github_Yue

最新推荐文章于 2024-03-20 06:30:00 发布

阅读量362

点赞数

分类专栏： transformer

本文链接：https://blog.csdn.net/qq_35778890/article/details/118147658

版权

transformer 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

这一总结主要是基于上一个对transformer的理解，对复旦大学这篇论文

https://arxiv.org/pdf/2012.15840.pdf

的个人解读。

1.segmentation transformer

整体结构：

在这里插入图片描述
图1：（a）首先将图像分割为固定尺寸的块（patches），对所有块进行线性标记，并加入位置标记，将其结果序列喂入标准的transformer编码器。为了进行逐像素的分割，我们介绍了不同的解码器设计：(b)渐进式上采样（SETR-PUP）©多级特征聚合（SETR-MLA）

将图像序列化：

如上图1所示，采用一维的feature embeddings序列 $\in \mathbb{R}^{L \times C}$ 作为输入。 $L$ 代表序列的长度， $C$ 代表隐藏的通道尺寸。图像序列化任务就是将输入图像 $\in \mathbb{R}^{H\times W \times 3}$ 转换为 $Z$ 。最直接的方法就是将图像像素铺平为尺寸为3HW的1维向量。对于典型图像尺寸 $\times 480(W) \times 3$ ，其结果向量的尺寸为691200。但是，将每个像素标记为transformer的序列输入是不现实的，在计算时间和空间上都不允许。

典型的语义分割的编码设计将2D图像 $\in \mathbb{R}^{{H}\times{W} \times C}$ 降采样为特征图 $x_f \in\mathbb{R}^{\frac{H}{16} \times \frac {W}{16} \times C}$ ，因此可以设置transformer的输入序列长度L为 $\frac{H}{16} \times \frac{W}{16} = \frac{HW}{256}$ 。通过这种方法可以将transformer的输出序列变形为目标特征图 $x_f$ 。

为了获取 $\frac{HW}{256}$ 长度的序列输入，我们将图像 $\in \mathbb{R}^{H \times W \times 3}$ 按照 $\frac{H}{16} \times \frac {W}{16}$ 进行划分，将划分的栅格平铺成一个序列。通过线性映射 $\rightarrow e \in {\mathbb{R}^{C}}$ 将每一个向量化的块p映射为C维度的嵌入空间，所以对于一幅输入图像x我们可以获得一个1维的嵌入块序列。为了编码每一个图像块的空间信息，还需要一个特定的嵌入向量 $p_i$ 加入到 $e_i$ 组成最后的序列 $\in \{ e_1+p_1, e_2+p_2,...,e_L+p_L\}$ 。通过这种方法，尽管transformer的自注意力是无序的，仍然可以保有其空间信息。

Transformer

给定1D的嵌入序列E作为输入，一个纯transformer的编码器被应用去学习特征表示。这意味这每一个transformer层有一个全局的感受野，解决了当前FCN编码器感受野有限的问题。transformer编码器包含 $L_e$ 层，这些层包括多头的自注意力块multi-head self-attention(MSA)和多层感知机Multilayer Perception(MLP)。对于每一个层l，自注意力的输入是一个三元组(query, key, value)，其通过输入 $Z^{l-1} \in {\mathbb{R}^{L \times C}}$ 进行计算：
$query = Z^{l-1}{W_Q},key=Z^{l-1}{W_K},value=Z^{l-1}{W_V}$ ，
其中， $W_Q/W_K/W_V \in\mathbb{R}^{C \times d}$ 是三个线性投射层的参数，d是(query,key,value)的维度。self-attention(SA) 表示为：
$SA(Z^{l-1}) = Z^{l-1} + softmax(\frac{Z^{l-1}W_Q{(ZW_K)^T}}{\sqrt d})(Z^{l-1}W_V)$
MSA是m个独立的SA操作的扩展并且将他们拼接的输出作为进行投射：
$MSA(Z^{l-1} )= [SA_1(Z^{l-1}); SA_2(Z^{l-1}); ...;SA_m(Z^{l-1})]W_O$ ，其中 $W_O \in {\mathbb{R}^{md \times C}}$ 。
其中，d被设置为 $C / m$ 。MSA的输出经过MLP块进行转换并通过参差进行连接。最后的输出为：
$Z^{l}=MSA(Z^{l-1})+MLP(MSA(Z^{l-1})) \in \mathbb{R}^{L \times C}$
注意，层的归一化在MSA和MLP块之前被应用。我们用 ${Z^1,Z^2,Z^3,...,Z^{L_e}\}$ 代表transformer层的特征。

Github_Yue

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Transformer学习总结二

这一总结主要是基于上一个对transformer的理解，对复旦大学这篇论文https://arxiv.org/pdf/2012.15840.pdf的个人解读。1.segmentation transformer整体结构：图1：（a）首先将图像分割为固定尺寸的块（patches），对所有块进行线性标记，并加入位置标记，将其结果序列喂入标准的transformer编码器。为了进行逐像素的分割，我们介绍了不同的解码器设计：(b)渐进式上采样（SETR-PUP）©多级特征聚合（SETR-MLA）将
复制链接

扫一扫