笔记-《A Survey of Large Language Models》- 3 大语言模型资源

  • 3 大语言模型资源
    • 3.1 公开可用的模型检查点或 API
      • 百亿参数量级别的模型:
        • LLaMA (最大版本 650 亿参数)
        • NLLB(最大版本 545 亿参数)
        • 大多在 100 亿至 200 亿之间
        • Flan-T5 (110 亿版本) 可以作为研究指令微调的首选模型
        • CodeGen(11B)是一个为生成代码设计的自回归语言模型,可用作探索代码生成能力的候选模型。
        • 对于多语言任务,mT0(13B)可能是一个比较好的候选模型
        • 对于中文的下游任务,PanGu-α具有较好的表现
        • 百亿参数量级别的模型通常需要数百甚至上千个 GPU 或 TPU。
      • 千亿参数量级别的模型:
        • 参数量几乎与 GPT-3(175B)大致相同
        • GLM1300 亿
        • Galactica1200 亿
        • OPT(175B)专注于复现和开源,旨在使研究人员能够进行大规模可重复研究。
        • 对于跨语言泛化研究, 可以将 BLOOM(176B)和 BLOOMZ(176B)用作基础模型, 因为其在多语言语言建模任务中具有较好的能力。
        • OPT-IML 进行了指令微调,是研究指令微调效果的较好选择。
        • 千亿参数量级别的模型通常需要数千个 GPU 或TPU 进行训练。
      • 大语言模型的公共 API:
        • OpenAI 提供了七个主要的 GPT-3 系列模型接口:
          • ada、babbage、curie、davinci(GPT-3 系列中最强大的版本)、text-ada-001、text-babbage-001 和text-curie-001。
          • 前四个接口可以在 OpenAI 的主机服务器上进一步进行微调
          • babbage、curie 和 davinci 分别对应于 GPT-3 (1B)、GPT-3 (6.7B) 和 GPT-3 (175B) 模型
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

L_serein

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值