Mixture-of-Experts Meets Instruction Tuning: A Winning Combination for Large Language Models

UnknownBody

已于 2023-07-19 18:33:46 修改

阅读量314

点赞数

文章标签：语言模型人工智能自然语言处理

于 2023-07-19 18:22:32 首次发布

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/131814889

版权

LLM 日更专栏收录该内容

515 篇文章 3 订阅

已下架不支持订阅

本文研究了Mixture-of-Experts（MoE）模型与指令微调结合在大型语言模型（LLM）中的效果。实验表明，MoE模型在指令微调后在多个任务上优于密集模型，特别是FLAN-MOE模型在减少计算成本的同时，性能超越了FLAN-PALM。

摘要由CSDN通过智能技术生成

本文是LLM系列的文章，针对《Mixture-of-Experts Meets Instruction Tuning: A Winning Combination for Large Language Models》的翻译。

摘要

稀疏混合专家（MoE）是一种神经架构设计，可用于在不增加推理成本的情况下向大型语言模型（LLM）添加可学习参数。指令调整是一种训练LLM遵循指令的技术。我们主张将这两种方法结合起来，因为我们发现MoE模型比密集模型从指令调整中受益更多。特别是，我们在三个实验设置中进行了实证研究：（i）在没有指令调整的情况下对单个下游任务进行直接微调；（ii）指令调整，然后对下游任务进行上下文小样本或零样本泛化；以及（iii）指令调整，辅以对个别下游任务的进一步微调。在第一种情况下，MoE模型总体表现不如具有相同计算能力的密集模型。然而，随着指令调整（第二和第三场景）的引入，这种叙述发生了巨大变化，指令调整独立使用或与特定任务的微调结合使用。我们最强大的型号FLAN-MOE（32B）在四个基准任务上的性能超过了FLAN-PALM（62B），而只使用了三分之一的FLOP。FLAN-MOE所体现的进步启发了在任务不可知学习的框架下重新评估大规模、高性

了解本专栏

UnknownBody

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Mixture-of-Experts Meets Instruction Tuning: A Winning Combination for Large Language Models

稀疏混合专家（MoE）是一种神经架构设计，可用于在不增加推理成本的情况下向大型语言模型（LLM）添加可学习参数。指令调整是一种训练LLM遵循指令的技术。我们主张将这两种方法结合起来，因为我们发现MoE模型比密集模型从指令调整中受益更多。特别是，我们在三个实验设置中进行了实证研究：（i）在没有指令调整的情况下对单个下游任务进行直接微调；（ii）指令调整，然后对下游任务进行上下文小样本或零样本泛化；以及（iii）指令调整，辅以对个别下游任务的进一步微调。
复制链接

扫一扫