深度探讨 CrossFormer 如何解决跨尺度问题

最新推荐文章于 2024-08-22 21:04:31 发布

极市平台

最新推荐文章于 2024-08-22 21:04:31 发布

阅读量1.6k

点赞数 1

文章标签：计算机视觉深度学习目标检测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Extremevision/article/details/121627326

版权

作者丨FlyEgle
编辑丨极市平台

论文名称: CROSSFORMER: A VERSATILE VISION TRANSFORMER BASED ON CROSS-SCALE ATTENTION
论文链接: https://arxiv.org/pdf/2108.00154.pdf
论文代码：https://github.com/cheerss/CrossFormer

1. 出发点

Transformers模型在处理视觉任务方面已经取得了很大的进展。然而，现有的vision transformers仍然不具备一种对视觉输入很重要的能力：在不同尺度的特征之间建立注意力。

每层的输入嵌入都是等比例的，没有跨尺度的特征；
一些transformers模型为了减少self-attention的计算量，衰减了key和value的部分特征表达。

2. 怎么做

为了解决上面的问题，提出了几个模块。

Cross-scale Embedding Layer (CEL)
Long Short Distance Attention (LSDA)
Dynamic Position Bias (DPB)

这里1和2都是为了弥补了以往架构在建立跨尺度注意力方面的缺陷，3的话和上面的问题无关，是为了使相对位置偏差更加灵活，更好的适合不定尺寸的图像和窗口。这篇文章还挺讲究，不仅提出两个模块来解决跨尺度特征attention，还附送了一个模块来搞一个搞位置编码。

阅读全文：深度探讨 CrossFormer 如何解决跨尺度问题

推荐大家关注极市平台公众号，每天都会更新最新的计算机视觉论文解读、综述盘点、调参攻略、面试经验等干货~

在这里插入图片描述

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。