LIMoE:稀疏化专家混合模型(Sparse Mixture-of-Experts Models)
它们在模型内部设置了很多“专家”,每个“专家”只需处理对应部分的输入,根据任务情况按需使用“专家”就好,但也不是完全割裂开来,模型内部仍有可共享的部分。这里的“专家”,也就是模型内部的不同子模型。缺点:任务太多时不如针对每个任务训练一个模型,又或者随着新任务的增加而导致模型对之前任务的作用效果变差,从而表现出灾难性遗忘现象。不是对每个输入都使用模型的每个部分进行处理,而是采用条件计算学习将输入路由到巨大网络中的不同“专家”处。优点:“专家”在专注于不同的任务或数据类型时,仍然可以使用模型的共享部分。
原创
2024-01-22 16:12:55 ·
525 阅读 ·
0 评论