backbone
文章平均质量分 78
Amusi(CVer)
欢迎关注微信公众号:CVer
展开
-
CoAtNet: Marrying Convolution and Attention for All Data Sizes
本文系统调研了CNN和Transformer的特性,并将两者结合提出新的家族式网络:CoAtNet,无额外数据时高达86%准确率,在JFT加持下,高达89.77%!性能优于CvT、BotNet和Swin等网络。谷歌两天祭出两大Backbone,昨天的ViT-G,今天的CoAtNet…注:别老收藏呀,欢迎点赞,支持分享!想看更多CVPR 2021论文和开源项目可以点击:CVPR2021-Papers-with-CodeCoAtNetCoAtNet: Marrying Convolution a原创 2021-06-11 21:33:52 · 2215 阅读 · 0 评论 -
89.77%准确率!谷歌大脑提出CoAtNet:结合卷积和注意力
本文系统调研了CNN和Transformer的特性,并将两者结合提出新的家族式网络:CoAtNet,无额外数据时高达86%准确率,在JFT加持下,高达89.77%!性能优于CvT、BotNet和Swin等网络。谷歌两天祭出两大Backbone,昨天的ViT-G,今天的CoAtNet…注:别老收藏呀,欢迎点赞,支持分享!想看更多CVPR 2021论文和开源项目可以点击:CVPR2021-Papers-with-CodeCoAtNetCoAtNet: Marrying Convolution a原创 2021-06-11 21:33:03 · 2105 阅读 · 6 评论 -
Scaling Vision Transformers
本文改进了ViT的架构和训练,减少了内存消耗并提高了模型的准确性!最终成功训练了一个具有20亿参数的ViT模型:ViT-G,在ImageNet上达到了90.45%的 top-1准确率。注1:文末附【视觉Transformer】交流群想看更多CVPR 2021论文和开源项目可以点击:CVPR2021-Papers-with-CodeViT-GScaling Vision Transformers作者单位:谷歌大脑(苏黎世),有原ViT一作和二作论文:https://arxiv.org/a原创 2021-06-11 21:18:14 · 1811 阅读 · 0 评论 -
90.45% 准确率!谷歌大脑提出:缩放视觉Transformer
本文改进了ViT的架构和训练,减少了内存消耗并提高了模型的准确性!最终成功训练了一个具有20亿参数的ViT模型:ViT-G,在ImageNet上达到了90.45%的 top-1准确率。注1:文末附【视觉Transformer】交流群想看更多CVPR 2021论文和开源项目可以点击:CVPR2021-Papers-with-CodeViT-GScaling Vision Transformers作者单位:谷歌大脑(苏黎世),有原ViT一作和二作论文:https://arxiv.org/a原创 2021-06-11 21:17:42 · 875 阅读 · 0 评论 -
SegFormer: Simple and Efficient Design for Semantic Segmenta
前言将 Transformer 与轻量级多层感知 (MLP) 解码器相结合,表现SOTA!性能优于SETR、Auto-Deeplab和OCRNet等网络,代码即将开源!注1:文末附【视觉Transformer】交流群想看更多CVPR 2021论文和开源项目可以点击:CVPR2021-Papers-with-CodeSegFormerSegFormer: Simple and Efficient Design for Semantic Segmentation with Transformer原创 2021-06-01 18:48:12 · 1762 阅读 · 0 评论 -
SegFormer:使用Transformer进行语义分割的简单高效设计
前言将 Transformer 与轻量级多层感知 (MLP) 解码器相结合,表现SOTA!性能优于SETR、Auto-Deeplab和OCRNet等网络,代码即将开源!注1:文末附【视觉Transformer】交流群想看更多CVPR 2021论文和开源项目可以点击:CVPR2021-Papers-with-CodeSegFormerSegFormer: Simple and Efficient Design for Semantic Segmentation with Transformer原创 2021-06-01 18:46:54 · 7931 阅读 · 1 评论 -
Pay Attention to MLPs
研究表明:自注意力对于视觉Transformer并不重要,因为gMLP可以达到相同的精度,性能优于ResMLP、MLP-Mixer等网络,可比肩DeiT等,在视觉和语言任务中通吃!可媲美Transformer!注1:文末附【视觉Transformer】交流群注2:整理不易,欢迎点赞,支持分享!想看更多CVPR 2021论文和开源项目可以点击:CVPR2021-Papers-with-CodegMLPPay Attention to MLPs作者单位:谷歌大脑(Quoc V. Le)论文下原创 2021-05-18 14:19:59 · 1697 阅读 · 0 评论 -
谷歌大脑提出gMLP:请多多关注MLP
研究表明:自注意力对于视觉Transformer并不重要,因为gMLP可以达到相同的精度,性能优于ResMLP、MLP-Mixer等网络,可比肩DeiT等,在视觉和语言任务中通吃!可媲美Transformer!注1:文末附【视觉Transformer】交流群注2:整理不易,欢迎点赞,支持分享!想看更多CVPR 2021论文和开源项目可以点击:CVPR2021-Papers-with-CodegMLPPay Attention to MLPs作者单位:谷歌大脑(Quoc V. Le)论文下原创 2021-05-18 14:19:04 · 1690 阅读 · 4 评论 -
ResMLP: Feedforward networks for image classification with data-efficient training
本文提出MLP 视觉新方法,构建了一个超级简单的残差架构,其残差块由一个隐藏层的前馈网络和一个线性patch交互层组成!当采用现代的训练方法,则可以在ImageNet上实现意想不到的高性能!代码即将开源!这一周MLP真热闹啊,看看近期的新工作:注1:文末附【视觉Transformer】交流群注2:整理不易,欢迎点赞,支持分享!想看更多CVPR 2021论文和开源项目可以点击:CVPR2021-Papers-with-CodeResMLP: Feedforward networks for i原创 2021-05-10 16:44:38 · 916 阅读 · 0 评论 -
Facebook提出ResMLP:具有数据高效训练用于图像分类的前馈网络
本文提出MLP 视觉新方法,构建了一个超级简单的残差架构,其残差块由一个隐藏层的前馈网络和一个线性patch交互层组成!当采用现代的训练方法,则可以在ImageNet上实现意想不到的高性能!代码即将开源!这一周MLP真热闹啊,看看近期的新工作:注1:文末附【视觉Transformer】交流群注2:整理不易,欢迎点赞,支持分享!想看更多CVPR 2021论文和开源项目可以点击:CVPR2021-Papers-with-CodeResMLP: Feedforward networks for i原创 2021-05-10 16:44:01 · 744 阅读 · 1 评论 -
MLP-Mixer: An all-MLP Architecture for Vision
一种仅基于多层感知机(MLP)的体系结构!可比肩并旨在超越成熟的CNN和大火的视觉Transformer的阵营工作,代码即将开源!PS:这个能引爆一波视觉MLP工作么?也许之后是CNN、Transformer、MLP几大阵营了…谷歌继续挖坑,太强了!注1:文末附【Transformer】交流群注2:整理不易,欢迎点赞,支持分享!想看更多CVPR 2021论文和开源项目可以点击:CVPR2021-Papers-with-CodeMLP-Mixer: An all-MLP Archi原创 2021-05-05 23:07:03 · 3160 阅读 · 0 评论 -
新坑来了!谷歌提出MLP-Mixer:一种用于视觉的全MLP架构
一种仅基于多层感知机(MLP)的体系结构!可比肩并旨在超越成熟的CNN和大火的视觉Transformer的阵营工作,代码即将开源!PS:这个能引爆一波视觉MLP工作么?也许之后是CNN、Transformer、MLP几大阵营了…谷歌继续挖坑,太强了!注1:文末附【Transformer】交流群注2:整理不易,欢迎点赞,支持分享!想看更多CVPR 2021论文和开源项目可以点击:CVPR2021-Papers-with-CodeMLP-Mixer: An all-MLP Archi原创 2021-05-05 23:06:31 · 735 阅读 · 0 评论 -
EfficientNetV2: Smaller Models and Faster Training
没有用JFT自家数据,在ImageNet刷到87.3%的top-1精度!训练速度比最先进的模型快得多,并缩小了6.8倍!性能超越ViT、BotNet和ResNeSt等网络,代码即将开源!注:Backbone哪家强?先杀一杀Transformer的锐气注:整理不易,欢迎点赞,支持分享!想看更多CVPR 2021论文和开源项目可以点击:CVPR2021-Papers-with-CodeEfficientNetV2: Smaller Models and Faster Training作者单原创 2021-04-03 18:47:04 · 1307 阅读 · 2 评论 -
EfficientNetV2震撼发布!更小的模型,更快的训练
没有用JFT自家数据,在ImageNet刷到87.3%的top-1精度!训练速度比最先进的模型快得多,并缩小了6.8倍!性能超越ViT、BotNet和ResNeSt等网络,代码即将开源!注:Backbone哪家强?先杀一杀Transformer的锐气注:整理不易,欢迎点赞,支持分享!想看更多CVPR 2021论文和开源项目可以点击:CVPR2021-Papers-with-CodeEfficientNetV2: Smaller Models and Faster Training作者单原创 2021-04-03 18:46:15 · 2183 阅读 · 1 评论 -
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
目标检测刷到58.7 AP(目前第一)!实例分割刷到51.1 Mask AP(目前第一)!语义分割在ADE20K上刷到53.5 mIoU(目前第一)!性能优于DeiT、ViT和EfficientNet等主干网络,代码即将开源!注1:文末附【Transformer】交流群注2:整理不易,欢迎点赞,支持分享!想看更多CVPR 2021论文和开源项目可以点击:https://github.com/amusi/CVPR2021-Papers-with-CodeSwin Transformer: Hi原创 2021-03-31 17:45:26 · 2735 阅读 · 1 评论 -
屠榜各大CV任务!Swin Transformer : 层次化视觉Transformer
目标检测刷到58.7 AP(目前第一)!实例分割刷到51.1 Mask AP(目前第一)!语义分割在ADE20K上刷到53.5 mIoU(目前第一)!性能优于DeiT、ViT和EfficientNet等主干网络,代码即将开源!注1:文末附【Transformer】交流群注2:整理不易,欢迎点赞,支持分享!想看更多CVPR 2021论文和开源项目可以点击:https://github.com/amusi/CVPR2021-Papers-with-CodeSwin Transformer: Hi原创 2021-03-31 17:44:57 · 1735 阅读 · 0 评论 -
涨点神器!IC-Conv:使用高效空洞搜索的Inception卷积,全方位提升!
点击上方“CVer”,选择加"星标"置顶重磅干货,第一时间送达本文转载自:AI人工智能初学者本文提出一种空洞卷积的新变体:Inception卷积,并提出一种基于统计优化的...转载 2020-12-31 12:46:20 · 2879 阅读 · 3 评论 -
Do We Really Need Explicit Position Encodings for Vision Transformers?
本文提出CPVT:条件Position encoding视觉Transformer,可以自然地处理任意长度的输入序列,其中PEG模块可以无缝集成到现有框架中,性能优于DeiT、ViT等网络Do We Really Need Explicit Position Encodings for Vision Transformers?代码:https://github.com/Meituan-AutoML/CPVT论文下载链接:https://arxiv.org/abs/2102.10882作者单位:美团原创 2021-02-24 23:14:23 · 1446 阅读 · 0 评论 -
我们真的需要视觉Transformers中的Position Encodings吗?
本文提出CPVT:条件Position encoding视觉Transformer,可以自然地处理任意长度的输入序列,其中PEG模块可以无缝集成到现有框架中,性能优于DeiT、ViT等网络Do We Really Need Explicit Position Encodings for Vision Transformers?代码:https://github.com/Meituan-AutoML/CPVT论文下载链接:https://arxiv.org/abs/2102.10882作者单位:美团原创 2021-02-24 23:13:45 · 863 阅读 · 1 评论 -
High-Performance Large-Scale Image Recognition Without Normalization
本文提出了Normalizer-Free ResNets家族,简称NFNets,表现SOTA!其中小版本与EfficientNet-B7的精度相同,但训练速度却快了8.7倍,最高达89.2%准确率!代码刚刚开源!-注1:文末附【计算机视觉细分垂直方向】交流群(含检测、分割、跟踪、医疗、GAN、Transformer等)注2:整理不易,欢迎点赞,支持分享!High-Performance Large-Scale Image Recognition Without Normalization作者单位转载 2021-02-17 21:48:10 · 1420 阅读 · 1 评论 -
DeepMind重新设计高性能ResNet!无需激活归一化层
本文提出Normalizer-Free方法,可设计没有激活归一化层的深度残差网络!其能直接应用于ResNet、RegNet等网络,相同FLOP预算下,可比肩EfficientNet!代码已开源!注1:文末附【计算机视觉细分垂直方向】交流群(含检测、分割、跟踪、医疗、GAN、Transformer等)注2:整理不易,欢迎点赞,支持分享!Characterizing signal propagation to close the performance gap in unnormalized ResNet原创 2021-02-17 16:09:33 · 291 阅读 · 0 评论 -
Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet
本文提出一种新的Tokens到Token 视觉Transformer(T2T-ViT)!性能更快更强,将原始ViT的参数和MAC减少200%,性能优于ViT、ResNet等网络,代码刚刚开源!昨天才推了一个CNN+Transformer的新backbone:CNN+Transformer!谷歌提出BoTNet:新主干网络!在ImageNet上达84.7%,今天又来了一个新工作,CV圈太内卷了!不过这篇论文中并没有在目标检测、实例分割等下游任务上的充足实验数据,如果加上相关分析就更好了,毕竟现在"back原创 2021-01-29 23:33:24 · 3430 阅读 · 0 评论 -
T2T-ViT:在ImageNet上从头训练视觉Transformer
本文提出一种新的Tokens到Token 视觉Transformer(T2T-ViT)!性能更快更强,将原始ViT的参数和MAC减少200%,性能优于ViT、ResNet等网络,代码刚刚开源!昨天才推了一个CNN+Transformer的新backbone:CNN+Transformer!谷歌提出BoTNet:新主干网络!在ImageNet上达84.7%,今天又来了一个新工作,CV圈太内卷了!不过这篇论文中并没有在目标检测、实例分割等下游任务上的充足实验数据,如果加上相关分析就更好了,毕竟现在"back原创 2021-01-29 23:32:44 · 4706 阅读 · 4 评论 -
Bottleneck Transformers for Visual Recognition
基于Transformer的新backbone来了!在ImageNet上高达84.7%的top-1精度,性能优于SENet、EfficientNet等,将其应用于目标检测、实例分割等下游任务,涨点显著!代码即将开源!实验做得相当充分!注1:文末附【Transformer】流群Bottleneck Transformers for Visual Recognition作者单位:UC Berkeley, 谷歌论文:https://arxiv.org/abs/2101.11605我们介绍BoTNe原创 2021-01-28 11:32:04 · 5070 阅读 · 0 评论 -
84.7%!BoTNet:视觉识别的Bottleneck Transformers
基于Transformer的新backbone来了!在ImageNet上高达84.7%的top-1精度,性能优于SENet、EfficientNet等,将其应用于目标检测、实例分割等下游任务,涨点显著!代码即将开源!实验做得相当充分!注1:文末附【Transformer】流群Bottleneck Transformers for Visual Recognition作者单位:UC Berkeley, 谷歌论文:https://arxiv.org/abs/2101.11605我们介绍BoTNe原创 2021-01-28 11:31:29 · 1313 阅读 · 1 评论 -
RepVGG: Making VGG-style ConvNets Great Again
重振VGG雄风!主体仅使用3×3卷积和ReLU!据作者称,在ImageNet上,RepVGG的top-1准确性达到80%以上,这是基础模型的首次实现!综合性能超越ResNet、EfficientNet等,部分代码刚刚开源!注1:文末附【计算机视觉细分垂直方向】交流群(含检测、分割、跟踪、医疗、GAN、Transformer等)注2:欢迎点赞,支持分享!RepVGGRepVGG: Making VGG-style ConvNets Great Again作者单位:清华大学(丁贵广团队), 旷视原创 2021-01-12 11:34:03 · 3320 阅读 · 3 评论 -
RepVGG:使VGG样式的ConvNets再次出色
重振VGG雄风!主体仅使用3×3卷积和ReLU!据作者称,在ImageNet上,RepVGG的top-1准确性达到80%以上,这是基础模型的首次实现!综合性能超越ResNet、EfficientNet等,部分代码刚刚开源!注1:文末附【计算机视觉细分垂直方向】交流群(含检测、分割、跟踪、医疗、GAN、Transformer等)注2:欢迎点赞,支持分享!RepVGGRepVGG: Making VGG-style ConvNets Great Again作者单位:清华大学(丁贵广团队), 旷视原创 2021-01-12 11:33:33 · 8707 阅读 · 0 评论 -
Training data-efficient image transformers & distillation through attention
本视觉Transformers(86M参数)在ImageNet上达到83.1%的top-1精度,蒸馏版本高达84.4%!优于ViT、RegNet和ResNet等,代码刚刚开源!注:文末附【Transformer】学习交流群Training data-efficient image transformers & distillation through attention作者单位:Facebook AI, 索邦大学。注:其中一位也是DETR的作者之一代码(不到一天,已经近200 star原创 2020-12-24 23:19:07 · 4647 阅读 · 1 评论 -
Facebook提出DeiT:通过注意力来训练数据高效的图像Transformer和蒸馏
本视觉Transformers(86M参数)在ImageNet上达到83.1%的top-1精度,蒸馏版本高达84.4%!优于ViT、RegNet和ResNet等,代码刚刚开源!注:文末附【Transformer】学习交流群Training data-efficient image transformers & distillation through attention作者单位:Facebook AI, 索邦大学。注:其中一位也是DETR的作者之一代码(不到一天,已经近200 star原创 2020-12-24 23:18:28 · 3629 阅读 · 4 评论 -
FcaNet: Frequency Channel Attention Networks
本文提出一种新的基于DCT频率域的通道注意力,其在分类、检测和分割任务上,性能优于SENet、CBAM和GCNet等主干,代码和模型即将开源!注:文末附计算机视觉交流群FcaNet: Frequency Channel Attention Networks作者单位:浙江大学(李玺团队)论文:https://arxiv.org/abs/2012.11879注意力机制,尤其是通道注意力,在计算机视觉领域取得了巨大的成功。许多工作专注于如何设计有效的通道注意力机制,同时忽略一个基本问题,即使用全局原创 2020-12-23 18:20:00 · 4033 阅读 · 0 评论 -
修改一行代码,简单粗暴涨点!浙大提出FcaNet:频率域通道注意力网络
本文提出一种新的基于DCT频率域的通道注意力,其在分类、检测和分割任务上,性能优于SENet、CBAM和GCNet等主干,代码和模型即将开源!注:文末附计算机视觉交流群FcaNet: Frequency Channel Attention Networks作者单位:浙江大学(李玺团队)论文:https://arxiv.org/abs/2012.11879注意力机制,尤其是通道注意力,在计算机视觉领域取得了巨大的成功。许多工作专注于如何设计有效的通道注意力机制,同时忽略一个基本问题,即使用全局原创 2020-12-23 18:19:28 · 6348 阅读 · 12 评论 -
ResNet or DenseNet? Introducing Dense Shortcuts to ResNet ResNet还是DenseNet?即插即用的DS涨点神器来了!
DSNet比ResNet取得了更好的结果,并且具有与DenseNet相当的性能,但需要的计算资源更少。其中改进的DS2Res2Net性能非常强大。作者:ChaucerG来源:AI人工智能初学者微信公众号作者单位:韩国科学技术院(KAIST)论文:https://arxiv.org/abs/2010.124961、简介大多数基于深度学习的方法都是通过backbone网络实现的,其中两个最有名的方法就是ResNet和DenseNet。尽管它们具有差不多的性能和受欢迎程度,但它们两个都存在固转载 2020-10-27 13:29:08 · 806 阅读 · 0 评论