周论文总结_22_02_10

最新推荐文章于 2024-05-29 09:41:53 发布

Hao_023

最新推荐文章于 2024-05-29 09:41:53 发布

阅读量246

点赞数

分类专栏：组会文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/qq_43635038/article/details/128986514

版权

组会专栏收录该内容

1 篇文章 0 订阅

订阅专栏

【ICLR2023】SeaFormer: Squeeze-enhanced Axial Transformer for Mobile Semantic Segmentation

论文链接：https://arxiv.org/abs/2301.13156
论文代码：https://github.com/fudan-zvg/SeaFormer

Overview

该论文从题目可以看出来，它是针对移动端的。首先我们直接看它的总体框架：
SeaFormer总体框架图
SeaFormer consists of these parts: shared STEM,context branch, spatial branch, fusion block and light segmentation head.
其中MV2代表MobileNetV2，首先进行下采样，对于上下文分支，经过MV2下采样三次，然后经过SeaFormer Layers，得到的不同层的特征分别与空间分支通过融合模块进行特征融合。这里的思想通LANTNet的思想有相似之处，最后通过Light segmetation head得到结果。

创新点：SQUEEZE-ENHANCED AXIAL ATTENTION

Squeeze Axial attention

基于前人的研究，全局注意力为：
$\mathbf{y}_{o}=\sum_{p \in \mathcal{G}(o)} \operatorname{softmax}_{p}\left(\mathbf{q}_{o}^{\top} \mathbf{k}_{p}\right) \mathbf{v}_{p}$
它的时间复杂度为 $\mathcal{O}\left(H^2 W^2\left(C_{q k}+C_v\right)\right)$
windows-based attention： $\mathbf{y}_o=\sum_{p \in \mathcal{N}_{m \times m}(o)} \operatorname{softmax}_p\left(\mathbf{q}_o^{\top} \mathbf{k}_p\right) \mathbf{v}_p$
axial attention： $\mathbf{y}_o=\sum_{p \in \mathcal{N}_{1 \times W}(o)} \operatorname{softmax}_p\left(\mathbf{q}_o^{\top} \mathbf{k}_p\right) \mathbf{v}_p+\sum_{p \in \mathcal{N}_{H \times 1}(o)} \operatorname{softmax}_p\left(\mathbf{q}_o^{\top} \mathbf{k}_p\right) \mathbf{v}_p$
受启发于上述两个attention，作者进行了一个优化，首先将Q、K、V在行列间进行一个平均以及维度排序：
$\mathbf{q}_{(h)}=\frac{1}{W}\left(\mathbf{q}^{\rightarrow\left(C_{q k}, H, W\right)} \mathbb{1}_W\right)^{\rightarrow\left(H, C_{q k}\right)}, \quad \mathbf{q}_{(v)}=\frac{1}{H}\left(\mathbf{q}^{\rightarrow\left(C_{q k}, W, H\right)} \mathbb{1}_H\right)^{\rightarrow\left(W, C_{q k}\right)}$
该过程复杂度为 $\mathcal{O}\left((H+W)\left(2 C_{q k}+C_v\right)\right)$ ，然后各个行列分别做轴向注意力：
$\mathbf{y}_{(i, j)}=\sum_{p=1}^H \operatorname{softmax}_p\left(\mathbf{q}_{(h) i}^{\top} \mathbf{k}_{(h) p}\right) \mathbf{v}_{(h) p}+\sum_{p=1}^W \operatorname{softmax}_p\left(\mathbf{q}_{(v) j}^{\top} \mathbf{k}_{(v) p}\right) \mathbf{v}_{(v) p}$
该过程复杂度为 $\mathcal{O}\left(\left(H^2+W^2\right)\left(C_{q k}+C_v\right)\right)$ ，将复杂度降为 $\mathcal{O}(H W)$ 。

Squeeze Axial position embedding

由于缺乏位置信息，作者进行一个位置编码：
$\begin{aligned} \mathbf{y}_{(i, j)} & =\sum_{p=1}^H \operatorname{softmax}_p\left(\left(\mathbf{q}_{(h) i}+\mathbf{r}_{(h) i}^q\right)^{\top}\left(\mathbf{k}_{(h) p}+\mathbf{r}_{(h) p}^k\right)\right) \mathbf{v}_{(h) p} \\ & +\sum_{p=1}^W \operatorname{softmax}_p\left(\left(\mathbf{q}_{(v) j}+\mathbf{r}_{(v) j}^q\right)^{\top}\left(\mathbf{k}_{(v) p}+\mathbf{r}_{(v) p}^k\right)\right) \mathbf{v}_{(v) p} \end{aligned}$

Detail enhancement kernel

作者认为上述方法缺乏局部信息，因此进行一个细节增强。在经过线性映射得到的Q、K、V后，进行concat然后进行一个3x3的卷积，进行对细节信息的增强，得到增强矩阵，然后于轴向注意力得到的结果进行相乘。该过程即为SQUEEZE-ENHANCED AXIAL ATTENTION全部过程。

在这里插入图片描述

总结

该文章主要是通过对前人的研究方法进行一个利用，使用轴向注意力进行改进，减小了参数量，达到了可以在移动端使用，同时插入了增强模块，设计了新的注意力模块。然后通过三层下采样以及融合模块构成了总体框架。

下周把本周组会内容丰富一下，学习一下其他同学的总结，认真学习。

Hao_023

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
周论文总结_22_02_10

该文章主要是通过对前人的研究方法进行一个利用，使用轴向注意力进行改进，减小了参数量，达到了可以在移动端使用，同时插入了增强模块，设计了新的注意力模块。然后通过三层下采样以及融合模块构成了总体框架。下周把本周组会内容丰富一下，学习一下其他同学的总结，认真学习。
复制链接

扫一扫