AI周报丨全新图像分类方法ViR,性能全面超越ViT;谷歌开源最大视觉模型V-MoE

华东师范大学等机构的研究者提出ViR,一种解决ViT计算量大和过拟合问题的图像分类方法,性能提升且参数量减少85%。谷歌开源了史上最大视觉模型V-MoE,具有高效能和可扩展性,用于图像识别。
摘要由CSDN通过智能技术生成

01# 行业大事件 

全新图像分类方法ViR,参数量下降85%,性能全面超越ViT

近一年来,视觉 Transformer(ViT)在图像任务上大放光芒,比如在图像分类、实例分割、目标检测分析和跟踪等任务上显示出了卓越的性能,展现出取代卷积神经网络的潜力。

但仍有证据表明,在大规模数据集上应用多个 Transformer 层进行预训练时,ViT 往往存在以下两个方面的问题:

一是计算量大,内存负担大;

二是在小规模数据集上从零开始训练时存在过拟合问题。

为了解决这些问题,来自华东师范大学等机构的研究者们提出了一种新的图像分类方法,即 Vision Reservoir (ViR) 。通过将每个图像分割成一系列具有固定长度的 token,ViR 构建一个具有几乎完全连接拓扑的纯库,以替换 ViT 中的 Transformer 模块。为了提高网络性能,研究者还提出了两种深度 ViR 模型。

论文链接:https://arxiv.org/pdf/2112.13545.pdf

研究者在几个图像分类基准上进行了 ViR 和 ViT 的对比实验。在没有任何预训练过程

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值