递归门控卷积HorNet（gn_conv）阅读笔记

最新推荐文章于 2024-07-25 22:26:10 发布

赫瑟尔

最新推荐文章于 2024-07-25 22:26:10 发布

阅读量8.3k

点赞数 5

分类专栏：阅读笔记深度学习文章标签：深度学习计算机视觉人工智能

本文链接：https://blog.csdn.net/qq_42075634/article/details/126670347

版权

HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions ECCV2022
程序
视觉 Transformers 的最新进展在基于点积 self-attention 的新空间建模机制驱动的各种任务中取得了巨大成功。在本文中，我们展示了视觉 Transformer 背后的关键要素，即输入自适应、远程和高阶空间交互，也可以通过基于卷积的框架有效实现。我们提出了递归门控卷积（gnConv），它通过门控卷积和递归设计执行高阶空间交互。新操作具有高度的灵活性和可定制性，它兼容各种卷积变体，并将自注意力中的二阶交互扩展到任意阶，而不会引入大量额外的计算。 gnConv 可以作为一个即插即用的模块来改进各种视觉 Transformer 和基于卷积的模型。基于该操作，我们构建了一个新的通用视觉骨干家族，名为 HorNet。在 ImageNet 分类、COCO 对象检测和 ADE20K 语义分割方面的大量实验表明，在整体架构和训练配置相似的情况下，HorNet 的性能明显优于 Swin Transformers 和 ConvNeXt。 HorNet 还显示出对更多训练数据和更大模型大小的良好可扩展性。除了在视觉编码器中的有效性外，我们还展示了 gnConv 可以应用于特定任务的解码器，并以更少的计算量持续提高密集预测性能。我们的结果表明，gnConv 可以成为一个新的视觉建模基础模块，它有效地结合了视觉 Transformer 和 CNN 的优点。代码可在 https://github.com/raoyongming/HorNet 获得。
在这里插入图片描述

我们的主要思想的插图。我们展示了执行不同交互顺序的代表性空间建模操作。在本文中，我们专注于研究特征（红色）与其相邻区域（浅灰色）之间的显式空间交互。 (a) 标准卷积运算没有明确考虑空间交互。 (b) 动态卷积 [27, 4] 和 SE [25] 引入了动态权重，以通过额外的空间交互来提高卷积的建模能力。 © 自注意力操作 [52] 通过两个连续的矩阵乘法执行二阶空间交互。 (d) gnConv 使用具有门控卷积和递归设计的高效实现来实现任意阶空间交互。
Transformer[41] 对采用视觉 Transformer 的元架构来改进 CNN 进行了深入研究，并提出使用大型 7×7 内核来构建现代 CNN。 [44] 和 [14] 分别建议使用更大的

最低0.47元/天解锁文章

赫瑟尔

关注

5
点赞
踩
50

收藏

觉得还不错? 一键收藏
4
评论
递归门控卷积HorNet（gn_conv）阅读笔记

HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions ECCV2022程序视觉 Transformers 的最新进展在基于点积 self-attention 的新空间建模机制驱动的各种任务中取得了巨大成功。在本文中，我们展示了视觉 Transformer 背后的关键要素，即输入自适应、远程和高阶空间交互，也可以通过基于卷积的框架有效实现。我们提出了递归门控卷积（gnConv），它通过门控卷
复制链接

扫一扫

专栏目录