经过五个月的开发和场景打磨,孟子多任务模型正式开源,提供出色的 Zero-Shot 及 Few-Shot 能力,以 0.22B 的轻量化模型在零样本学习 ZeroCLUE 和小样本学习权威榜单 FewCLUE 榜单均排名第一,大家可通过 Hugging Face Model Hub 或 GitHub 下载使用(链接见下文)。
孟子多任务模型不仅可以实现“一个模型完成多个任务”,还具备极强的泛化能力,无需大量标注数据就可以完成新任务适配,在应用上能够让模型研发和部署维护更加轻量化。
这与澜舟团队自创立以来一直倡导的 “模型轻量化” 技术路线一脉相承——2021 年孟子轻量化预训练模型仅以十亿参数,战胜了众多百亿、千亿参数的大模型,登顶中文语言理解权威评测基准 CLUE 榜单,并在同年 10 月份开源了四个模型(Mengzi-BERT-base、Mengzi-BERT-base-fin、Mengzi-T5-base、Mengzi-Oscar-base)。
此次开源孟子多任务模型是澜舟团队在“模型轻量化”方面又一个重要进展,期待与各界同仁一起探讨、交流,让轻量化模型赋能更多应用场景。
一、为什么要研究“多任务学习”?
多任务学习(Multi-Task Learning,MTL)是机器学习的一个子领域,其利用任务之间的共性和差异同时解决多个学习任务。与单独训练模型相比,这可以提高特定任务模型的学习效率和预测准确性。[1]
一般来说,多任务模型具有以下优势:
- 无需对底层模型进行任何改动,使用一个模型即可完成各种任务;