5. VOLO： Vision Outlooker for Visual Recognition

易大飞

已于 2022-04-07 14:40:47 修改

阅读量1.9k

点赞数

分类专栏： transformer在cv领域的应用深度学习 CV 文章标签：计算机视觉深度学习 transformer

于 2022-01-05 19:19:36 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/stf1065716904/article/details/122330118

版权

CV 同时被 3 个专栏收录

31 篇文章 2 订阅

订阅专栏

18 篇文章 1 订阅

订阅专栏

transformer在cv领域的应用

5 篇文章 0 订阅

订阅专栏

VOLO的整体流程很简单：主要分为两个阶段，第一个阶段使用outlookattention + MLP获取图像特征，第二阶段使用普通attention + MLP获取图像特征，对此时获取的图像特征再执行classAttention提取分类token特征，最后进行类别划分。

1. outlookattention

outlookattention的本质就是把多层feature map 按照卷积核大小，通道长度，划分为多个柱状体（unfold），其中一个柱状体的示例就是下图中绿色框的中间部分。对单个柱状体基于通道进行attention操作，获取通道间的关系特征（softmax操作），然后在作用到原始feature map上，计算同一个feature 不同位置间的关系，最后再把柱状体合并成原始的feature map（fold操作），这样输入和输出的高度，宽度，通道，就完全一致了。

OutLooker的提出主要基于以下两点：

a.每个空间位置的特征都具有足够的代表性，可以生成聚集了局部邻近信息的注意力权重

b.密集的局部空间聚合信息可以有效地编码精细层次的信息

2. transformer attention

就是基础的基于所有通道间的attention处理。

3. class attention

是把所有非class attention的特征信息，作用于class attention，为了获取更多的图像特征信息。最后生成class attention

4. 全连接层

拟合分类类别数量。

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
5. VOLO： Vision Outlooker for Visual Recognition

VOLO的整体流程很简单：主要分为两个阶段，第一个阶段使用outlookattention + MLP获取图像特征，第二阶段使用普通attention + MLP获取图像特征，对此时获取的图像特征再执行classAttention提取分类token特征，最后进行类别划分。outlookattention （unfold + matmul + fold操作）...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。