从GLM-130B到ChatGLM,清华ChatGLM一作曾博士报告ppt

摘要:GLM-130B是一个中英双语预训练基座模型,拥有1300亿参数,模型架构采用通用语言模型GLM,其22年8月开源版本已完成4000亿token预训练。斯坦福基础模型中心22年11月对全球30个大模型进行的评测报告显示 GLM-130B在准确性和恶意性指标上与GPT-3 175B (davinci) 接近或持平,鲁棒性和校准误差在所有千亿规模的基座大模型(无指令微调)中表现优异。自8月起,GLM团队进一步向模型注入了文本和代码预训练,通过有监督微调等技术实现人类意图对齐,于23年2月开始内测 ChatGLM千亿对话模型,于3月开源ChatGLM-6B模型。此外,GLM-130B(和ChatGLM)的INT4量化版本支持在一台八卡 2080Ti 或四卡3090服务器上对1300亿全参数模型进行基本无精度损失的推理。报告将分享 GLM团队在千亿训练和ChatGLM研发过程的一点思考和尝试。

曾奥涵: 清华大学知识工程实验室一年级博士生,为开源双语预训练模型 GLM-130B 模型和 ChatGLM 系统的主要开发者之一,研究方向为自然语言处理与大规模预训练模型,指导老师为唐杰教授。

  

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AIMasterStar

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值