Slide-Transformer: Hierarchical Vision Transformer with Local Self-Attention论文阅读笔记

最新推荐文章于 2024-05-31 22:39:41 发布

我来了！！！

最新推荐文章于 2024-05-31 22:39:41 发布

阅读量989

点赞数 3

分类专栏：论文阅读笔记文章标签： transformer 论文阅读笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45788429/article/details/130202259

版权

论文阅读笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

-cvpr2023

-当前attention机制存在的问题：

①利用im2col方式计算local attention 需要消耗很大的计算资源

② window attention存在固定的设计模式，如窗口应该如何移动，引入人工干涉。

-Method

-.Shift as Depthwise Convolution

作者首先从新的角度上剖析了im2col的原理，并用深度卷积重新实现local attention 机制。

①im2col实现的local attention:以2*2的特征图为例，先进行padding，而后通过3*3的滑动窗口得到H*W个窗口值，再进行展平，得到键值对。

②feature shift实现的local attention：以2*2的特征图为例，按照左上，上，右上，左，中，右，左下，下，右下的方式移动特征图窗口。得到九个不同的特征，再生成键值对。

③作者提出的利用Depthwise实现的local attention：以2*2的特征图为例，先进行padding，而后通过不同的固定权重的3*3的窗口得到九个不同的特征，再生成键值对。

-Deformed Shifting Module

通过将原来的 Im2Col 函数切换为 depthwise convolutions，局部注意力的效率得到了极大的提升。尽管如此，精心设计的内核权重仍然将键和值限制在固定的相邻位置，这可能不是捕获不同特征的最佳解决方案。因此，本文提出了一种新颖的可变形移位模块，以进一步增强局部注意力的灵活性。具体来说，我们在 shiftwise 卷积中利用设计范例，并引入并行卷积路径，其中内核参数在训练过程中随机初始化和学习。与将特征向不同方向移动的固定核相比，可学习内核可以解释为所有局部特征的线性组合。这类似于可变形卷积网络中的不规则感受野。

①局部注意力中的键值对是利用一个更灵活的模块来提取的，该模块可以提高模型的容量和捕获更多样性的特征。

②可学习的卷积核与DCN中的可变形技术很相似。类似于DCN中四个相邻像素的双线性插值，我们的变形移位模块可以看作是局部窗口内特征的线性组合。这最终有助于增强空间采样位置和模型输入的几何变换。

③使用重新参数化技术来将这两条并行路径转换为一个单一的卷积。这样，我们就可以在保持推理效率的同时提高模型的计算能力

我来了！！！

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
Slide-Transformer: Hierarchical Vision Transformer with Local Self-Attention论文阅读笔记

②feature shift实现的local attention：以2*2的特征图为例，按照左上，上，右上，左，中，右，左下，下，右下的方式移动特征图窗口。③作者提出的利用Depthwise实现的local attention：以2*2的特征图为例，先进行padding，而后通过不同的固定权重的3*3的窗口得到九个不同的特征，再生成键值对。①im2col实现的local attention:以2*2的特征图为例，先进行padding，而后通过3*3的滑动窗口得到H*W个窗口值，再进行展平，得到键值对。
复制链接

扫一扫

专栏目录

我来了！！！

博客等级

码龄5年

59
原创

11
点赞

83
收藏

20
粉丝

关注

私信

热门文章

分类专栏

最新评论

Slide-Transformer: Hierarchical Vision Transformer with Local Self-Attention论文阅读笔记
小棉花kk: 讲得挺好
MAT: Mask-Aware Transformer for Large Hole Image Inpainting论文阅读笔记
keep--learning: 博主您好，这篇论文您复现了吗
解决Jetson AGX xavier开机在Started update utmp about system runlevel changes卡死
Qi妖: 你好麻烦问一下，这个加载界面的时候按 ctrl alt f2 不起作用是怎么回事，进不去这个tty2模式
TFill：Bridging Global Context Interactions for High-Fidelity Image Completion论文阅读笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
CRFill：Generative Image Inpainting with Auxiliary Contextual Reconstruction论文阅读笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。