论文阅读UniNeXt: Exploring A Unified Architecture for Vision Recognition

包含self-attention和卷积在内的分类架构

在摘要中作者指出以往的设计并没有统一结构,如果把以往的spatial token mixer加入uninext,准确率结果的排名会发生变化,不同的结构可能会造成比较结果的差异。

我对“以往的设计并没有统一结构”保留意见,我记得在metaformer的后续论文中有一篇关于统一结构的文章,并比较了不同spatial token mixer的差异,等我找到了插个链接。UniFormer: Unifying Convolution and Self-attention for Visual Recognition这篇,有代码

uninext的整体结构如下,金字塔结构和stem部分没什么特别的,EC和HdC应该是本篇文章的核心,PC部分标蓝了没有展开,个人觉得应该是地方不够了吧,不过后文作者也展开了。

EC(Embedded Convolution)嵌入式卷积动机有两个主要方面。首先,它增强了模型的归纳偏差,这对于学习和泛化至关重要。其次,EC 与所有令牌混合器兼容,提供了跨各种架构的灵活性和易于实现。对于注意力,直接在值上执行深度卷积,而不是在窗口转换之后,使其普遍适用于所有类型的注意力。。。。。不知道这个注意力跟以往的注意力有什么区别,后文说了在比较的时候不使用额外的绝对位置编码或相对位置编码,只使用最普通的自注意力,现在卷积和注意力同时使用都不使用位置编码了,作者也做了实验,不加就能达到最佳效果

HdC(High-dimensional Convolution)高维卷积,作者从其他研究中发现在MLP中添加一个轻量级的3×3深度卷积可以提高性能,并继承和扩展了这种卷积嵌入机制。首先,使用 MLP 的第一个线性层映射特征维度以获得高维特征 F。然后使用 3×3 深度卷积进行空间局部融合来编码高维隐式特征,从而提高效率。。。。。真是语言的艺术,学会了放文章里。这不就是普通的FFN层只进行了通道扩张四倍再缩放回去,这加了个dw卷积就变成新东西了,想贴代码,还没出来,比较好奇这个dw卷积换成普通卷积会不会也有效果

  ‘VIT的FFN’


self.net=nn.Sequential(
            nn.Linear(dim,hidden_dim),
            nn.GELU(),
            nn.Dropout(dropout),
            nn.Linear(hidden_dim,dim),
            nn.Dropout(dropout)
        )

PC(Post Convolution)后卷积也是一个dw卷积,在FFN后边又加了一个卷积。

这篇文章里我最感兴趣的图是这张,虽然其他文章里也有描述感受野的图片,不过那种集中在相关性,好奇这种图片怎么作

不知道这篇文章最大的亮点在哪里,觉得没有什么新颖之处,不过还是很有启发性的,它真的有在认真指导我怎么集成现有的工作,组装灌水成新工作。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值