AI周报丨全新图像分类方法ViR，性能全面超越ViT；谷歌开源最大视觉模型V-MoE

最新推荐文章于 2024-02-03 14:46:39 发布

极链AI云

最新推荐文章于 2024-02-03 14:46:39 发布

阅读量2.9k

点赞数

分类专栏： AI周报文章标签：人工智能深度学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_60673947/article/details/122534366

版权

华东师范大学等机构的研究者提出ViR，一种解决ViT计算量大和过拟合问题的图像分类方法，性能提升且参数量减少85%。谷歌开源了史上最大视觉模型V-MoE，具有高效能和可扩展性，用于图像识别。

摘要由CSDN通过智能技术生成

01# 行业大事件

全新图像分类方法ViR，参数量下降85%，性能全面超越ViT

近一年来，视觉 Transformer(ViT)在图像任务上大放光芒，比如在图像分类、实例分割、目标检测分析和跟踪等任务上显示出了卓越的性能，展现出取代卷积神经网络的潜力。

但仍有证据表明，在大规模数据集上应用多个 Transformer 层进行预训练时，ViT 往往存在以下两个方面的问题：

一是计算量大，内存负担大；

二是在小规模数据集上从零开始训练时存在过拟合问题。

为了解决这些问题，来自华东师范大学等机构的研究者们提出了一种新的图像分类方法，即 Vision Reservoir (ViR) 。通过将每个图像分割成一系列具有固定长度的 token，ViR 构建一个具有几乎完全连接拓扑的纯库，以替换 ViT 中的 Transformer 模块。为了提高网络性能，研究者还提出了两种深度 ViR 模型。

论文链接：https://arxiv.org/pdf/2112.13545.pdf

研究者在几个图像分类基准上进行了 ViR 和 ViT 的对比实验。在没有任何预训练过程

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。