笔记-《A Survey of Large Language Models》- 3 大语言模型资源

本文链接：https://blog.csdn.net/L_serein/article/details/136957504

                    
                        
                    
                    3 大语言模型资源 
  3.1 公开可用的模型检查点或 API 
    百亿参数量级别的模型: 
      LLaMA (最大版本 650 亿参数)
NLLB(最大版本 545 亿参数)
大多在 100 亿至 200 亿之间
Flan-T5 (110 亿版本) 可以作为研究指令微调的首选模型
CodeGen(11B)是一个为生成代码设计的自回归语言模型,可用作探索代码生成能力的候选模型。
对于多语言任务,mT0(13B)可能是一个比较好的候选模型
对于中文的下游任务,PanGu-α具有较好的表现
百亿参数量级别的模型通常需要数百甚至上千个 GPU 或 TPU。
 
千亿参数量级别的模型: 
      参数量几乎与 GPT-3(175B)大致相同
GLM1300 亿
Galactica1200 亿
OPT(175B)专注于复现和开源,旨在使研究人员能够进行大规模可重复研究。
对于跨语言泛化研究, 可以将 BLOOM(176B)和 BLOOMZ(176B)用作基础模型, 因为其在多语言语言建模任务中具有较好的能力。
OPT-IML 进行了指令微调,是研究指令微调效果的较好选择。
千亿参数量级别的模型通常需要数千个 GPU 或TPU 进行训练。
 
大语言模型的公共 API: 
      OpenAI 提供了七个主要的 GPT-3 系列模型接口: 
        ada、babbage、curie、davinci(GPT-3 系列中最强大的版本)、text-ada-001、text-babbage-001 和text-curie-001。
前四个接口可以在 OpenAI 的主机服务器上进一步进行微调
babbage、curie 和 davinci 分别对应于 GPT-3 (1B)、GPT-3 (6.7B) 和 GPT-3 (175B) 模型