MoMa:模态感知的专家混合机制

人工智能专家与华尔街日报记者们,最新研究揭示了一种新型多模态稀疏架构的巨大潜力

来自Meta公司AI研究团队的最新研究成果揭示了一种名为MoMa(Mixture of Modality-aware Experts)的新型多模态稀疏架构,有望大幅提升混合模态早期融合语言模型的预训练效率。该研究成果发表在最新一期的arXiv预印本平台上。

混合模态早期融合语言模型近年来展现出强大的跨模态理解与生成能力,但其计算成本高昂,难以大规模应用。Meta AI团队提出的MoMa架构通过引入模态感知的专家混合机制,有效地提高了模型的参数利用效率,为大规模多模态AI系统的发展铺平了道路。

MoMa:模态感知的专家混合机制

MoMa的核心思想是将传统混合专家(MoE)模型中的专家模块划分为特定模态的组,每组专门处理指定模态的token,同时在每个组内采用学习型路由以保持语义信息的自适应性。

具体来说,MoMa将专家分为文本专家组和图像专家组。输入token首先根据其模态被路由到相应的专家组,然后在组内通过学习型路由函数分配给特定专家。这种层次化的路由机制允许模型为不同模态开发更精细的特征表示,同时通过非MoE层中的共享自注意力机制保持跨模态信息的整合。

研究人员表示:“通过模态特定的参数分配,MoMa在保持跨模态整合能力的同时,显著提高了模型对不同模态特征的捕捉能力。”

显著的预训练效率提升

研究团队在1万亿token的预训练预算下进行了大规模实验,结果表明MoMa架构在预训练效率上取得了实质性的提升。

具体而言,采用4个文本专家和4个图像专家的1.4B参数MoMa模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

步子哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值