人工智能专家与华尔街日报记者们,最新研究揭示了一种新型多模态稀疏架构的巨大潜力
来自Meta公司AI研究团队的最新研究成果揭示了一种名为MoMa(Mixture of Modality-aware Experts)的新型多模态稀疏架构,有望大幅提升混合模态早期融合语言模型的预训练效率。该研究成果发表在最新一期的arXiv预印本平台上。
混合模态早期融合语言模型近年来展现出强大的跨模态理解与生成能力,但其计算成本高昂,难以大规模应用。Meta AI团队提出的MoMa架构通过引入模态感知的专家混合机制,有效地提高了模型的参数利用效率,为大规模多模态AI系统的发展铺平了道路。
MoMa:模态感知的专家混合机制
MoMa的核心思想是将传统混合专家(MoE)模型中的专家模块划分为特定模态的组,每组专门处理指定模态的token,同时在每个组内采用学习型路由以保持语义信息的自适应性。
具体来说,MoMa将专家分为文本专家组和图像专家组。输入token首先根据其模态被路由到相应的专家组,然后在组内通过学习型路由函数分配给特定专家。这种层次化的路由机制允许模型为不同模态开发更精细的特征表示,同时通过非MoE层中的共享自注意力机制保持跨模态信息的整合。
研究人员表示:“通过模态特定的参数分配,MoMa在保持跨模态整合能力的同时,显著提高了模型对不同模态特征的捕捉能力。”
显著的预训练效率提升
研究团队在1万亿token的预训练预算下进行了大规模实验,结果表明MoMa架构在预训练效率上取得了实质性的提升。
具体而言,采用4个文本专家和4个图像专家的1.4B参数MoMa模型