近日,土豪Google AI继之前发布的20亿参数的ViT-G/14模型之后,又发布了参数量为150亿的视觉模型V-MoE,这可以称得上迄今为止最大的视觉模型,其在ImageNet上的Top-1 accuracy达到90.35%,这个也超过之前Google提出的Meta Pseudo-Labelling (MPL)(注意这里ViT-G/14模型的训练成本只有MPL的70%左右),但是略低于ViT-G/14模型。
MPL模型是基于半监督和JFT-300M,而ViT-G/14模型是基于ViT和JFT-3B来实现更好的效果。这次Google提出的V-MoE核心设计是Sparse Mixture of Experts,这其实是一个稀疏模型(sparse model),这个也是借鉴了NLP领域已有的成果,即实现视觉领域的稀疏模型V-MoE,其模型结构如下图所示:
可以看到V-MoE也是在ViT基础上构建的,都包含个同质的ViT模块,这里最大的变动是将transformer模块里面的MLP替换成一些列的MLPs,每个MLP放在一个单独的device上,只负责处理固定数量的tokens(或者说是image patchs),每个MLP可以看成一个expert,替换后的layer这里称为MoE layer。在处理上,每个图像的每个token在每个MoE层只有个expert来负责处理它