The Advisors Alliance Network of Mixture of Experts

关键技术:Transformer As Gate,Prompt强化,分类调优

在人工智能领域,将小型AI模型组合成更大、更复杂的模型是一个持续研究的主题。为了实现这个目标,已经提出并实施了各种策略。

专家混合模型(MoE)[1]是一种知名的方法,它结合了多个“专家”模型,每个模型专门处理输入空间的不同部分。其思想是根据这些专家在给定输入中的能力对他们的输出进行加权,从而创建一个更强大、更灵活的模型。Switch Transformer (ST) [2]是Transformer模型的一个变体,它将Transformer中的密集前馈网络(FFN)层替换为稀疏的Switch FFN层。这一层独立地对序列中的标记进行操作,然后将它们路由到多个FFN专家。Switch FFN层返回所选FFN的输出,将其乘以路由器阈值,然后合并。这种方法允许模型动态分配计算资源,专注于每个特定任务最相关的专家。专家选择(EC)方法[3]设置了一组具有预定缓冲区容量的专家。它将前k个标记分配给专家,从标记到专家生成一个得分矩阵,然后根据这个矩阵做出路由决策。这种方法确保每个标记可以被路由到可变数量的专家,每个专家可以有固定的桶大小,提高训练收敛时间和微调任务的性能。通用语言模型(GLaM)[4]使用稀疏激活的混合专家架构来增加模型容量,同时与密集变体相比,其训练成本大大降低。通过关注不同标记的相对重要性并允许每个标记被路由到可变数量的专家,GLaM在一系列任务中实现了更高的性能。

除了专家混合(MoE)方法,还有一些其他的AI模型组合策略,如bagging和boosting,这些方法涉及训练多个模型并组合他们的预测以减少过拟合和提高鲁棒性。堆叠泛化将模型以层次方式组合,使用多个模型的输出作为高级模型的输入。联邦学习在多个设备或服务器上训练模型,每个设备或服务器都有自己的本地数据集,并将学习到的参数聚合形成全局模型。神经架构搜索(NAS)自动找到给定任务的最佳神经网络架构,从模型的搜索空间中组合最佳组件。

顾问同盟网络(TAAN)是一种结合了专家混合(MoE)和模型堆叠方法的解决方案。简单来说,TAAN由一系列同质的Transformer模型微调成不同的特性堆叠而成。它由N+2个模型组成,其中N个模型针对不同类型的专业知识进行微调,称为Advisor。

TAAN的架构与MoE类似,具有一个门控系统。然而,与典型的MoE架构不同,TAAN的门控由一个专门的Transformer模型处理。这个Transformer模型,被称为Transformer As Gate(TAG),源自与其他专家模型相同的基础模型,但是专门微调并优化其识别但不回答各种专业知识的能力。

当TAG接收到外部任务,如Q&A任务时,它只识别专业和行业问题,然后改写原prompt在专业领域强化后,转发给相应的Advisor进行处理。与MoE不同,任务处理后,结果直接返回,不进行选举或汇总。

此外,还有另一个模型,通过从各种分类数据中提取进行微调,称为通用Advisor,处理TAG无法分类的任务。

顾问同盟网络(TAAN)的具体训练方法涉及准备N+1个相同的基础模型,例如LLaMA2 - 13B基础模型。准备N套不同的专业数据集,继续训练1号到N号模型。由于模型的遗忘问题,评估标准是模型在各种专业领域的测试得分的提高,这就是顾问(Advisor)。然后,从1号到N号数据集中随机选择,将分类提示附加到数据上,微调N+1号模型,直到它能正确识别知识类型,作为TAG(Transformer As Gate)。

然后,使用MMLU(Multi-task Language Understanding)指标评估整个TAAN网络。如果平均MMLU得分提高,网络训练被认为是成功的。

TAAN的优点包括:

效率:TAAN利用多个专门模型的优势,使其能够比单一的、泛化的模型更有效地处理各种任务。

专业知识:TAAN中的每个顾问都在特定的专业数据集上进行微调,使其能够在该特定领域内熟练。这种专业知识水平可以在顾问专业领域内的任务上取得优越的性能。

可扩展性:TAAN设计时考虑到可扩展性,具有根据需要增加额外顾问以适应更多类型知识的能力。这种适应性使其适合应对不断变化或发展的任务需求。

鲁棒性和备份准备:为任务路由实施专用的Transformer As Gate (TAG)增强了网络的鲁棒性。如果顾问表现不佳或失败,TAG可以将任务重新路由到另一个顾问或通用顾问。在顾问失败的情况下,由于剩余的模型与基础模型共享起源,它们可以接管并在一定程度上执行缺失的任务。这使得TAAN在部署模型时具有高度的容错能力和灵活性。

多功能性:包含通用顾问确保了TAAN能够处理不适合其他顾问特定领域的任务,使TAAN成为一种能够处理广泛任务的多功能解决方案。

训练和知识保留的便捷性:TAAN中的所有顾问和TAG都在基础模型上继续训练,而不修改原始模型,使TAAN易于实施和训练。此外,这种方法缓解了模型在专业数据上训练时“遗忘”其他知识的问题。

References:

[1] @misc{gormley2018mixtures, title={Mixtures of Experts Models}, author={Isobel Claire Gormley and Sylvia Frühwirth-Schnatter}, year={2018}, eprint={1806.08200}, archivePrefix={arXiv}, primaryClass={stat.ME} }

[2] @misc{fedus2022switch, title={Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity}, author={William Fedus and Barret Zoph and Noam Shazeer}, year={2022}, eprint={2101.03961}, archivePrefix={arXiv}, primaryClass={cs.LG} }

[3] @misc{zhou2022mixtureofexperts, title={Mixture-of-Experts with Expert Choice Routing}, author={Yanqi Zhou and Tao Lei and Hanxiao Liu and Nan Du and Yanping Huang and Vincent Zhao and Andrew Dai and Zhifeng Chen and Quoc Le and James Laudon}, year={2022}, eprint={2202.09368}, archivePrefix={arXiv}, primaryClass={cs.LG} }

[4] @misc{du2022glam, title={GLaM: Efficient Scaling of Language Models with Mixture-of-Experts}, author={Nan Du and Yanping Huang and Andrew M. Dai and Simon Tong and Dmitry Lepikhin and Yuanzhong Xu and Maxim Krikun and Yanqi Zhou and Adams Wei Yu and Orhan Firat and Barret Zoph and Liam Fedus and Maarten Bosma and Zongwei Zhou and Tao Wang and Yu Emma Wang and Kellie Webster and Marie Pellat and Kevin Robinson and Kathleen Meier-Hellstern and Toju Duke and Lucas Dixon and Kun Zhang and Quoc V Le and Yonghui Wu and Zhifeng Chen and Claire Cui}, year={2022}, eprint={2112.06905}, archivePrefix={arXiv}, primaryClass={cs.CL} }

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Want to know how to use an electronic component? This second book of a three-volume set includes key information on electronics parts for your projects--complete with photographs, schematics, and diagrams. You'll learn what each one does, how it works, why it's useful, and what variants exist. No matter how much you know about electronics, you'll find fascinating details you've never come across before. Perfect for teachers, hobbyists, engineers, and students of all ages, this reference puts reliable, fact-checked information right at your fingertips--whether you're refreshing your memory or exploring a component for the first time. Beginners will quickly grasp important concepts, and more experienced users will find the specific details their projects require. Volume 2 covers signal processing, including LEDs, LCDs, audio, thyristors, digital logic, and amplification. Unique: the first and only encyclopedia set on electronic components, distilled into three separate volumes Incredibly detailed: includes information distilled from hundreds of sources Easy to browse: parts are clearly organized by component type Authoritative: fact-checked by expert advisors to ensure that the information is both current and accurate Reliable: a more consistent source of information than online sources, product datasheets, and manufacturer's tutorials Instructive: each component description provides details about substitutions, common problems, and workarounds Comprehensive: Volume 1 covers power, electromagnetism, and discrete semiconductors; Volume 2 includes LEDs, LCDs, audio, thyristors, digital logic, and amplification; Volume 3 covers a range of sensing devices.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值