- 3 大语言模型资源
- 3.1 公开可用的模型检查点或 API
- 百亿参数量级别的模型:
- LLaMA (最大版本 650 亿参数)
- NLLB(最大版本 545 亿参数)
- 大多在 100 亿至 200 亿之间
- Flan-T5 (110 亿版本) 可以作为研究指令微调的首选模型
- CodeGen(11B)是一个为生成代码设计的自回归语言模型,可用作探索代码生成能力的候选模型。
- 对于多语言任务,mT0(13B)可能是一个比较好的候选模型
- 对于中文的下游任务,PanGu-α具有较好的表现
- 百亿参数量级别的模型通常需要数百甚至上千个 GPU 或 TPU。
- 千亿参数量级别的模型:
- 参数量几乎与 GPT-3(175B)大致相同
- GLM1300 亿
- Galactica1200 亿
- OPT(175B)专注于复现和开源,旨在使研究人员能够进行大规模可重复研究。
- 对于跨语言泛化研究, 可以将 BLOOM(176B)和 BLOOMZ(176B)用作基础模型, 因为其在多语言语言建模任务中具有较好的能力。
- OPT-IML 进行了指令微调,是研究指令微调效果的较好选择。
- 千亿参数量级别的模型通常需要数千个 GPU 或TPU 进行训练。
- 大语言模型的公共 API:
- OpenAI 提供了七个主要的 GPT-3 系列模型接口:
- ada、babbage、curie、davinci(GPT-3 系列中最强大的版本)、text-ada-001、text-babbage-001 和text-curie-001。
- 前四个接口可以在 OpenAI 的主机服务器上进一步进行微调
- babbage、curie 和 davinci 分别对应于 GPT-3 (1B)、GPT-3 (6.7B) 和 GPT-3 (175B) 模型
- OpenAI 提供了七个主要的 GPT-3 系列模型接口:
- 百亿参数量级别的模型:
- 3.1 公开可用的模型检查点或 API