迈向更高效通用的加速之路:谷歌提出视觉和多任务MoE方法

谷歌近日推出V-MoE和Task MoE,旨在提升计算机视觉和多任务学习模型的计算效率。V-MoE在ViT基础上结合MoE,通过学习路由单元选择处理Token的专家,实现模型规模扩展。Task MoE以任务为基本单位,通过路由单元分配不同任务到相关子网络,减少计算代价。两者在保证效果的同时,提供更高效的推理速度。
摘要由CSDN通过智能技术生成

【专栏:前沿进展】近日,MoE家族又添两个新成员:V-MoE和Task MoE,由谷歌提出,能够显著提升计算机视觉和多任务学习模型的计算效率,进一步扩大模型的规模。

MoE是近年来快速发展的一种模型加速方法,研究者认为,如同人类有不同领域的专家一样,模型在面对不同的数据时也可以由更为“擅长”的“专家”(特定的网络结构)来处理。

与其对每个输入都要训练整个模型,不如在训练过程中根据输入的不同,仅触发并更新该模型中的某一部分,以降低模型总体的训练代价,学习出更大参数量的模型;并在推理时,可以针对不同的下游任务,将大模型拆解得到一个体积更小,但是效果更好的子模型,以实现更加高效的推理。

在这种思路的指导下,一系列混合专家模型(Mixture of Expert,MoE)方法应运而生。依托MoE方法,Switch Transformer等模型参数提升至了万亿级别。而谷歌近日提出的新型MoE方法,让这一方法逐步扩展到更多领域,成为一种更为通用,且相比知识蒸馏等方法更为高效的加速策略。

作者:梁子、戴一鸣

审校:戴一鸣

abda089f1e538e8dd0728b9f59fc7b6d.png


01

V-MoE


1.基本原理

Vision Transformers(ViT)是CV领域中比较有代表性的模型之一,该模型通过将图像均匀切分成若干个片段(Patch)来模拟Transformer的输入。V-MoE(Vision MoE)则是在ViT的基础上,通过将Transformer模块的内部结构改为MoE形式而得到的变体,是一种稀疏混合专家模型。

V-MoE的模型结构和MoE Transformer的结构类似,如下图所示。研究者将ViT模块中的feedforward层(FFN)替换为多个FFN的混合集成(其中每一个FFN为一个Expert)。之后,对于每一个模块的输入,ViT通过学习路由单元(Router)来选择性地激活若干个Expert,并为每一个Expert赋予其权重。

a29a7fb65b47922aeaf5cd7dc4ebcb5b.png

在V-MoE中,每张图片中不同的片段(即不同的Token)将被Router分配到不同的几个FFN中。一般而言,Router会为每个Token选择Top-K个FFN(K一般取1或2),而在每一个ViT模块中大概会有E个FFN(在本论文中E取值为32)。通过这种方式,V-MoE模型的大小可以得到提升,而且在模型规模提升的情况下,每一个Token对应的计算量都不会发生太大变动。下图展现了V-MoE encoder模块的更多细节。

93b8dc40b1137273e61e8f06f4e14429.png

2.实际应用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值