01# 行业大事件
全新图像分类方法ViR,参数量下降85%,性能全面超越ViT
近一年来,视觉 Transformer(ViT)在图像任务上大放光芒,比如在图像分类、实例分割、目标检测分析和跟踪等任务上显示出了卓越的性能,展现出取代卷积神经网络的潜力。
但仍有证据表明,在大规模数据集上应用多个 Transformer 层进行预训练时,ViT 往往存在以下两个方面的问题:
一是计算量大,内存负担大;
二是在小规模数据集上从零开始训练时存在过拟合问题。
为了解决这些问题,来自华东师范大学等机构的研究者们提出了一种新的图像分类方法,即 Vision Reservoir (ViR) 。通过将每个图像分割成一系列具有固定长度的 token,ViR 构建一个具有几乎完全连接拓扑的纯库,以替换 ViT 中的 Transformer 模块。为了提高网络性能,研究者还提出了两种深度 ViR 模型。
论文链接:https://arxiv.org/pdf/2112.13545.pdf
研究者在几个图像分类基准上进行了 ViR 和 ViT 的对比实验。在没有任何预训练过程