![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
网络架构
文章平均质量分 93
AIWalker-Happy
Happy专注于底层视觉处理,对基础AI技术保持学习心态
展开
-
CVPR2024 | 大核卷积新高度101x101,美团提出PeLK
最近,一些大核卷积网络以吸引人的性能和效率进行了反击。然而,考虑到卷积的平方复杂度,扩大内核会带来大量的参数,而大量的参数会引发严重的优化问题。由于这些问题,当前的 CNN 妥协以条带卷积的形式扩展到 (即 + ),并随着内核大小的持续增长而开始饱和。在本文中,我们深入研究解决这些重要问题,并探讨我们是否可以继续扩展内核以获得更多性能提升。受人类视觉的启发,我们提出了一种类人外围卷积,通过参数共享有效减少了密集网格卷积 90% 以上的参数数量,并设法将内核尺寸扩大到极大。原创 2024-03-14 20:38:23 · 1992 阅读 · 0 评论 -
“羊驼“入侵CV,美团&浙大沈春华团队将LLaMA向CV扩展,构建全新基础模型VisionLLaMA
大型语言模型构建在基于Transformer的架构之上来处理文本输入, LLaMA 系列模型在众多开源实现中脱颖而出。类似LLaMa的Transformer可以用来处理2D图像吗?在本文中,我们通过提出一种类似 LLaMA 的朴素和金字塔形式的Transformer来回答这个问题,称为。VisionLLaMA 是一个统一的通用建模框架,用于解决大多数视觉任务。我们采用经典的预训练框架在图像感知(尤其是图像生成)任务上对齐有效性进行了充分评估。原创 2024-03-04 22:10:23 · 1141 阅读 · 0 评论 -
CVPR2023 RIFormer, 无需TokenMixer也能达成SOTA性能的极简ViT架构
编辑 | Happy首发 | AIWalker链接 | https://mp.weixin.qq.com/s/l3US8Dsd0yNC19o7B1ZBgwToken Mixer是ViT骨干非常重要的组成成分,它用于对不同空域位置信息进行自适应聚合,但常规的自注意力往往存在高计算复杂度与高延迟问题。而直接移除Token Mixer又会导致不完备的结构先验,进而导致严重的性能下降。基于此,本文。紧接着,作者改进了学习架构以打破无Token Mixer架构的局限性并总结了5条指导方针。原创 2024-03-02 09:25:12 · 980 阅读 · 0 评论 -
DCNv4来袭,更快收敛、更高速度、更高性能!
本文首发于本文介绍了一种高效和有效的算子DCNv 4,它是专为广泛的视觉应用而设计的。与其前身DCNv 3相比,DCNv 4有两个关键增强功能:(1);(2)。这些改进显著加快了收敛速度,并大幅提高了处理速度,。在各种任务中,包括图像分类、实例和语义分割,特别是图像生成中,DCNv 4表现出卓越的性能。当集成到潜在扩散模型中的U-Net等生成模型中时,DCNv 4的性能优于其基线,强调了其增强生成模型的潜力。在实际应用中,。原创 2024-02-25 10:23:09 · 1524 阅读 · 3 评论 -
ICLR2024 | 东北大学提出用于移动端的高效调制方案EfficientMod,即将开源!
从上述简介可以看到:VAN与FocalNet有一定的相通之处。原创 2024-02-25 10:14:20 · 874 阅读 · 0 评论 -
Swin版VMamba来了!精度再度提升,VMamba-S达成83.5%,超越Swin-S,已开源!
就在昨日,华科王兴刚团队公开了Mamba在ViT的入局Vim,取得了更高精度、更快速度、更低显存占用。就在纳闷Swin版的VMamba啥时候出来之时,UCAS、华为以及鹏城实验室联合提出了Swin版本的VMamba,不出之外的取得了更高的精度,,不过这在意料之中,Swin-S也比DeiT-S高3%左右,不得不为Vim早一天公开感到庆幸,本文受到最近提出的状态空间模型的启发,。为了解决方向敏感的问题,我们。原创 2024-01-19 23:12:02 · 800 阅读 · 0 评论 -
入局CV,Mamba再显神威!华科王兴刚团队首次将Mamba引入ViT,更高精度、更快速度、更低显存!
本文首发:在Transformer如日中天时,一个称之为“Mamba”的架构横冲出世,在语言建模上与Transformers不相上下,具有线性复杂度,同时具有!一时之间,被给予厚望“下一代架构”~就在今日,华中科技大学王兴刚团队首次将“Mamda”里面引入到CV领域而得到Vim公开了,,神了,估计后续会出现各种变种,DeiM、PvM,哈哈~最近,具有高效硬件感知设计的状态空间模型(State Space Models, SSM)曼巴,已显示出在长序列建模方面的巨大潜力。虽然。但是,由于。原创 2024-01-19 23:10:55 · 1287 阅读 · 0 评论 -
PVT重磅升级:三点改进,性能大幅提升
编辑:Happy首发:AIWalker标题&作者团队本文是南京大学&港大&南理工&商汤团队针对PVT的升级,针对PVT存在的不足提出了三点改进(1)采用卷积提取局部连续特征;(2)带zero-padding 的重叠块嵌入提取位置信息编码;(3)带均值池化、线性复杂度的注意力层。受益于上述三点改进措施,所得PVTv2取得了显著优于PVTv1的性能,同时具有比Swin更佳的性能。AbstractTransformer在CV领域取得了喜人的进展。在本文工作原创 2021-06-28 22:05:38 · 1047 阅读 · 0 评论 -
“新卷王”X-volution | 将卷积与自注意力进行高效集成,上交与华为海思提出了Xvolution
编辑:Happy首发:AIWalker在本文中,华为上交&华为海思提出了一种集成卷积与自注意力的Xvolution,它将卷积与自注意力进行了集成,同时利用卷积的局部特征提取能力与自注意力的全局建模能力。更重要的是,它通过结构重参数化机制将卷积与自注意力组合的多分支结构转换乘了等价单一卷积形式,达到了涨点的同时具有高度硬件实现友好的目的。此外,Xvolution是一种广义形式,其自注意力部分可以是自注意力形式还是可以是Involution形式。相比自注意力与Involution,所提方案取.原创 2021-06-07 21:27:43 · 1298 阅读 · 0 评论 -
EPSANet:金字塔拆分注意力模块
编辑:Happy首发:AIWalker本文是深圳大学&西安交大在注意力机制方面的探索,在通道注意力的基础上,引入多尺度思想,构建了本文所提的即插即用EPSA模块。相比其他注意力机制(比如SENet、FcaNet等),所提EPSANet在图像分类、目标检测以及实例分割任务上均取得了显著性能提升。Abstract已有研究表明:将注意力模块嵌入都现有CNN中可以带来显著的性能提升。比如,知名的SENet、BAM、CBAM、ECANet、GCNet、FcaNet等注意力机制均带来了客观的性.原创 2021-06-05 15:00:48 · 10773 阅读 · 5 评论 -
视觉架构大一统!港中文通过统一视角Container对Transformer, 深度卷积以及MLP-Mixer进行了大一统
编辑:Happy首发:AIWalker前段时间MLP-Mixer提出后,引发了视觉架构圈的一篇轰动,包含但不限于以下几篇文章:“重参数宇宙”再添新成员:RepMLP,清华大学&旷视科技提出将重参数卷积嵌入到全连接层新坑!谷歌提出MLP-Mixer:一种无卷积、无注意力,纯MLP构成的视觉架构MLP再添新砖,Facebook入局!ResMLP:完全建立在MLP上的图像分类架构CV圈杀疯了!继谷歌之后,清华、牛津等学者又发表三篇MLP相关论文,LeCun也在发声由此引发了关于“ML.原创 2021-06-05 12:08:09 · 308 阅读 · 0 评论 -
“重参数宇宙”再添新成员:RepMLP,清华大学&旷视科技提出将重参数卷积嵌入到全连接层
编辑:Happy首发:AIWalkerpaper: https://arxiv.org/abs/2105.01883code: https://github.com/DingXiaoH/RepMLP(核心code已开源)本文是清华大学&旷视科技在结构重参数领域继ACNet、RepVGG、DBB之后又一突破:RepMLP,它将重参数卷积与全连接层进行了巧妙地衔接,同时利用了全连接层的全局建模、位置感知特性与卷积的局部结构提取能力。在ImageNet分类、人脸识别以及语义分割等任务(无论.原创 2021-05-15 11:30:24 · 371 阅读 · 0 评论 -
新坑!谷歌提出MLP-Mixer:一种无需卷积、注意力,纯MLP构成的视觉架构
编辑:Happy首发:AIWalkerpaper: https://arxiv.org/abs/2105.01601code:https://github.com/google-research/vision_transformer本文是谷歌大脑的研究员(原ViT团队)在网络架构设计方面挖的新坑:MLP-Mixer。无需卷积、注意力机制,MLP-Mixer仅需MLP即可达到与CNN、Transformer相媲美的性能。比如,在JFT-300M数据集预训练+ImageNet微调后,所提Mixe.原创 2021-05-05 19:27:20 · 2097 阅读 · 3 评论