论文笔记(Shunted-Transformer)

最新推荐文章于 2024-07-20 17:00:58 发布

三斤驴肉花

最新推荐文章于 2024-07-20 17:00:58 发布

阅读量177

点赞数

文章标签：论文阅读计算机视觉 python cnn 人工智能 Powered by 金山文档

本文链接：https://blog.csdn.net/Karl51/article/details/129338845

版权

9.Shunted-Transformer

1.研究背景：

ViT模型在各种计算机视觉任务中表现出令人鼓舞的结果，这要归功于它们通过自注意对图像patch或token的长期依赖进行建模的能力。目前的视觉Transformer模型通常为每一层中的每个标记特性指定相似的接受字段。这种约束不可避免地限制了每个自注意层捕捉多尺度特征的能力，从而导致在处理具有不同尺度的多个对象的图像时性能下降。

2.存在问题：

1. 自注意机制带来了昂贵的内存消耗成本。通过提前下采样方法解决会导致特征信息的丢失，通过在一层自注意合并token的方法会导致小物体的细粒度信息与背景混合在一起，使得模型在捕获小对象时效率降低；通过局部自注意不方便获得全局依赖关系。

2. 之前的Transformer模型在很大程度上忽略了自注意层内场景对象的多尺度性质。

3.改进思索：

引入了一种新颖而通用的自注意方案，称为分流自注意(SSA)，它明确地允许同一层中的自注意头分别考虑粗粒度和细粒度特征。与之前合并太多token导致无法捕获小对象的方法不同，SSA有效地在同一层的不同注意力头同时对不同规模的对象进行建模，使其具有良好的计算效率的同时保留细粒度细节。

4.解决方案：

1.SSA：SSA降低了计算难度的同时，实现了对大目标和小目标的的处理。SSA的多尺度注意机制是通过将多个注意头分成若干组来实现的，每个组都有一个专门的注意力粒度。对于细粒度的组，SSA学会了聚合少量的令牌并保留更多的本地细节；对于粗粒度头组，SSA学会了聚合大量的令牌，从而在保留捕获大对象的能力的同时降低了计算成本。

1.SSA为每个自注意层引入了分流注意机制，以捕获多粒度的信息，更好地对不同大小的对象，特别是小对象进行建模。

2.通过增加跨token交互，增强了在点向前馈层提取局部信息的能力。

3. 采用了一种新的patch嵌入方法，为第一个注意块获得更好的输入特征映射。