Transformer
文章平均质量分 92
AIWalker-Happy
Happy专注于底层视觉处理,对基础AI技术保持学习心态
展开
-
“羊驼“入侵CV,美团&浙大沈春华团队将LLaMA向CV扩展,构建全新基础模型VisionLLaMA
大型语言模型构建在基于Transformer的架构之上来处理文本输入, LLaMA 系列模型在众多开源实现中脱颖而出。类似LLaMa的Transformer可以用来处理2D图像吗?在本文中,我们通过提出一种类似 LLaMA 的朴素和金字塔形式的Transformer来回答这个问题,称为。VisionLLaMA 是一个统一的通用建模框架,用于解决大多数视觉任务。我们采用经典的预训练框架在图像感知(尤其是图像生成)任务上对齐有效性进行了充分评估。原创 2024-03-04 22:10:23 · 1111 阅读 · 0 评论 -
CVPR2023 RIFormer, 无需TokenMixer也能达成SOTA性能的极简ViT架构
编辑 | Happy首发 | AIWalker链接 | https://mp.weixin.qq.com/s/l3US8Dsd0yNC19o7B1ZBgwToken Mixer是ViT骨干非常重要的组成成分,它用于对不同空域位置信息进行自适应聚合,但常规的自注意力往往存在高计算复杂度与高延迟问题。而直接移除Token Mixer又会导致不完备的结构先验,进而导致严重的性能下降。基于此,本文。紧接着,作者改进了学习架构以打破无Token Mixer架构的局限性并总结了5条指导方针。原创 2024-03-02 09:25:12 · 940 阅读 · 0 评论 -
Swin版VMamba来了!精度再度提升,VMamba-S达成83.5%,超越Swin-S,已开源!
就在昨日,华科王兴刚团队公开了Mamba在ViT的入局Vim,取得了更高精度、更快速度、更低显存占用。就在纳闷Swin版的VMamba啥时候出来之时,UCAS、华为以及鹏城实验室联合提出了Swin版本的VMamba,不出之外的取得了更高的精度,,不过这在意料之中,Swin-S也比DeiT-S高3%左右,不得不为Vim早一天公开感到庆幸,本文受到最近提出的状态空间模型的启发,。为了解决方向敏感的问题,我们。原创 2024-01-19 23:12:02 · 740 阅读 · 0 评论 -
入局CV,Mamba再显神威!华科王兴刚团队首次将Mamba引入ViT,更高精度、更快速度、更低显存!
本文首发:在Transformer如日中天时,一个称之为“Mamba”的架构横冲出世,在语言建模上与Transformers不相上下,具有线性复杂度,同时具有!一时之间,被给予厚望“下一代架构”~就在今日,华中科技大学王兴刚团队首次将“Mamda”里面引入到CV领域而得到Vim公开了,,神了,估计后续会出现各种变种,DeiM、PvM,哈哈~最近,具有高效硬件感知设计的状态空间模型(State Space Models, SSM)曼巴,已显示出在长序列建模方面的巨大潜力。虽然。但是,由于。原创 2024-01-19 23:10:55 · 1119 阅读 · 0 评论 -
PVT重磅升级:三点改进,性能大幅提升
编辑:Happy首发:AIWalker标题&作者团队本文是南京大学&港大&南理工&商汤团队针对PVT的升级,针对PVT存在的不足提出了三点改进(1)采用卷积提取局部连续特征;(2)带zero-padding 的重叠块嵌入提取位置信息编码;(3)带均值池化、线性复杂度的注意力层。受益于上述三点改进措施,所得PVTv2取得了显著优于PVTv1的性能,同时具有比Swin更佳的性能。AbstractTransformer在CV领域取得了喜人的进展。在本文工作原创 2021-06-28 22:05:38 · 1004 阅读 · 0 评论