南开/北大/MSRA揭秘Local 视觉Transformer:稀疏连接,权重共享,动态权重

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

转载自:Smarter

单位:微软亚洲研究院 (MSRA),南开大学,北京大学

论文:https://arxiv.org/pdf/2106.04263.pdf

               

这篇文章首次从网络结构正则化:稀疏连接,权重共享,以及动态权重三个方面对local ViT进行了分析,同时与深度分离卷积对比,从不同角度明确阐述了其网络设计规则,并对近期热门的MLP, VIT, 以及传统的CNN网络结构设计之间的关系进行了对比,分析了其联系。实验结果表明在现有的网络结构设计中,引入更多的正则化手段将减少训练的难度,带来更好的性能。而简单的深度可分离卷积和local ViT在相同的网络结构和训练策略下,在ImageNet分类, 目标检测,语义分割领域表现相当。这引发我们对不同的正则化方式带来的效果,以及下一步的网络结构设计进行深思。

01

摘要

ViT在视觉领域频繁取得SOTA结果,引入了局部操作的Local ViT在ViT的基础上进一步提升了性能。其中核心的local attention是一种通道上彼此独立,空间局部连接的操作,我们用网络正则化中的稀疏连接,权重共享,以及动态权重来探讨local attention. 稀疏连接是指通道之间彼此在操作中没有交互,且每一个空间位置仅局部的与其他位置连接。权重共享是说local attention在每一个空间位置的局部连接权重,在不同通道之间进行共享,或者在不同的组之间共享。动态权重:局部连接的权重,根据每个样本的特征动态地产生。local attention与深度分离卷积或动态卷积相比,在稀疏连接上拥有一样的正则化,其主要区别在于权重共享中,深度分离卷积或动态卷积是不同通道之间不共享权重,而在不同空间位置上共享权重。我们观察到深度分离卷积极其动态版本,能够在相同的结构和训练策略下与Local Vit (以Swin Transformer为例)在分类, 目标检测,语义分割领域表现相当,同时计算量更小。这些观察表明Local ViT实际上是通过稀疏连接,权重共享,动态权重三个方面来增加模型的表征能力。

  1. 网络结构正则化与权重共享

文章的主要阐述角度为两个网络结构正则化的方法,即稀疏连接和权重共享,以及共享权重这三个方面。

稀疏连接是指一些输出变量和一些输入变量直接没有相互连接。它有效的减少了模型的复杂度而不减少输入输出变量个数。

权重共享意味着有一些连接的权重是相同且共享的,它降低了模型的参数量,同时不需要增加训练数据即可增强模型的优化效果。

动态权重是指根据不同样本的特征,动态地产生连接权重。它能够增加模型的容量。如果把连接权重看作是隐层变量,这种动态权重可以看作是增加模型的容量的二阶操作。

  1. Local attention与深度分离卷积

Local attention的稀疏连接是指通道之间彼此在操作中没有交互,且每一个空间位置仅局部的与其他位置连接。其权重共享是说local attention在每一个空间位置的局部连接权重,在不同通道之间进行共享,或者在不同的组之间共享。Local attention使用动态权重,局部连接的权重,根据每个样本的特征动态地产生。

深度分离卷积与其相比,拥有相同的稀疏连接模式,通道之间彼此在操作中没有交互,且每一个空间位置仅局部的与其他位置连接。权重共享与Local attention不同,深度分离卷积在不同通道之间不共享连接权重,而在不同的空间位置上共享连接权重。深度分离卷积使用静态的权重作为模型的可学习参数,同时也可以利用动态卷积的方法,根据不同样本特征动态的生成权重。

这里只给出了简单描述,详细内容参见论文原文及附录描述。

               

该图呈现了不同结构或操作的稀疏连接方式(1D空间示例):(a)为朴素的卷积的连接方式,一个输出点与局部空间位置的所有通道相互连接;(b)为global attention和空间mixing MLP,一个输出点与相同通道的所有空间位置相互连接;(c)local attention和深度分离卷积,一个输出点与相同通道的局部空间位置有相互连接;(d)point-wise MLP和1x1卷积,一个输出点与同空间位置的所有通道之间互相互连接;(e)全连接MLP

  1. 关系图

我们展示了不同的正则化方式之间的关系图,分析了卷据,深度分离卷积,ViT,Local ViT, MLP,分离的MLP (如MLP-Mixer, ResMLP等)在稀疏连接,权重共享和动态权重之间的联系。

这里只给出了简单描述,详细内容参见论文原文及附录描述。

如图所示,我们同样引入了低秩正则化来分析卷积及ViT的变种,及潜在的低秩MLP变种结构。

               

图中ViT和Local ViT指其结构中的attention结构,PVT为低秩形式下的金字塔结构Transformer,Dim. Sep.表示通道维度上稀疏化,Locality Sep.表示空间位置连接稀疏化,LR表示低秩,MS Conv.表示多尺度卷积。

关系图中,从上到下呈现了依次增强的正则化方式或者引入动态权重,随着正则化及动态权重的增加,网络的人为先验结构也随之增加,这种形式带来了优化上的好处,使得网络更容易训练得到更好的结果,现有实验结果也同样验证了此项结论。

这里只给出了简单描述,详细内容以及关系图的规范化描述,参见论文原文及附录描述。

02

实验结果

在ImageNet1K上,不同正则化方式的代表方法对比,DW-Conv.和D-DW-Conv表示深度分离卷积极其动态卷积的形式替换Local ViT(Swin Transformer)的结构,并保持相同的训练策略,相应的T和B对应Tiny和Base模型。深度可分离卷积在拥有相同稀疏连接及不同的权重共享情况下,和Local ViT表现相当,且有更小的计算量和参数量,同时在小模型下,动态的深度分离卷积具有更好的表现效果。

               

在COCO目标检测与分割和ADE20K语义分割上,以Cascade Mask-RCNN和UPerNet为检测和分割结构,两种方法的结果如下:

               

这些实验结果与观察表明Local ViT实际上是通过稀疏连接,权重共享,动态权重三个方面来增加模型的表征能力。深度分离卷积在相同的结构与训练策略下能够达到表现相当的结果,引发我们对不同的正则化方式带来的效果,以及下一步的网络结构设计进行深思。

CVPR和Transformer资料下载

后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集
后台回复:Transformer综述,即可下载最新的两篇Transformer综述PDF
CVer-Transformer交流群成立
扫码添加CVer助手,可申请加入CVer-Transformer 微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲长按加小助手微信,进交流群▲点击上方卡片,关注CVer公众号
整理不易,请给CVer点赞和在看
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值