150亿！谷歌发布史上最大视觉模型V-MoE，却最有希望减少碳排放？

最新推荐文章于 2024-05-03 13:09:44 发布

机器学习算法工程师

最新推荐文章于 2024-05-03 13:09:44 发布

阅读量652

点赞数 2

分类专栏：机器学习系列文章标签：计算机视觉机器学习人工智能深度学习神经网络

本文链接：https://blog.csdn.net/lujohn3li/article/details/118059241

版权

谷歌AI推出视觉模型V-MoE，拥有150亿参数，ImageNet Top-1 accuracy达90.35%，超过MPL模型。V-MoE基于稀疏模型思想，采用Sparse Mixture of Experts设计，通过限制每个token的专家数量，实现高效计算。模型虽大，但训练和推理成本相对较低，研究表明，模型稀疏性有助于减少碳排放。

摘要由CSDN通过智能技术生成

近日，土豪Google AI继之前发布的20亿参数的ViT-G/14模型之后，又发布了参数量为150亿的视觉模型V-MoE，这可以称得上迄今为止最大的视觉模型，其在ImageNet上的Top-1 accuracy达到90.35%，这个也超过之前Google提出的Meta Pseudo-Labelling (MPL)（注意这里ViT-G/14模型的训练成本只有MPL的70%左右），但是略低于ViT-G/14模型。

MPL模型是基于半监督和JFT-300M，而ViT-G/14模型是基于ViT和JFT-3B来实现更好的效果。这次Google提出的V-MoE核心设计是Sparse Mixture of Experts，这其实是一个稀疏模型（sparse model），这个也是借鉴了NLP领域已有的成果，即实现视觉领域的稀疏模型V-MoE，其模型结构如下图所示：

可以看到V-MoE也是在ViT基础上构建的，都包含个同质的ViT模块，这里最大的变动是将transformer模块里面的MLP替换成一些列的MLPs，每个MLP放在一个单独的device上，只负责处理固定数量的tokens（或者说是image patchs），每个MLP可以看成一个expert，替换后的layer这里称为MoE layer。在处理上，每个图像的每个token在每个MoE层只有个expert来负责处理它

最低0.47元/天解锁文章

机器学习算法工程师

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
150亿！谷歌发布史上最大视觉模型V-MoE，却最有希望减少碳排放？

点蓝色字关注“机器学习算法工程师”设为星标，干货直达！机器学习算法工程师机器学习、深度学习、数据挖掘等人工智能领域的技术实战干货文章，这里都有！分享从业经验是我们的不变的准则……
复制链接

扫一扫