model
文章平均质量分 57
Yunpeng1119
这个作者很懒,什么都没留下…
展开
-
Focal Self-attention for Local-Global Interactions inVision Transformers
本文提出了 focal self-attention,这是一种结合了细粒度局部交互和粗粒度全局交互的新机制。在这个新的机制中,每个 token 以细粒度关注其最近的周围 token,以粗粒度关注其远的周围 token,从而可以有效地捕获短期和长期的可视依赖关系。基于焦点自注意,提出了 focal Transformer,在一系列公共图像分类和目标检测基准上实现了优于先进的 (SoTA) ViT 的性能。原创 2022-09-17 14:40:32 · 709 阅读 · 0 评论 -
Shunted Self Attention via Multi Scale Token Aggregatio | CVPR 2022
Propose a novel and generic strategy, termed shunted self-attention (SSA), that allows ViTs to model the attentions athybrid scales per attention layer .原创 2022-09-16 15:34:10 · 96 阅读 · 0 评论