文章目录
- GLM-130B:开放的中英双语预训练模型
-
- 摘要:何为 GLM-130B?
- 快速上手
- 何为GLM-130B?
- GLM-130B表现如何?
-
- 讨论:GLM-130B的零样本学习设置
- 零样本学习:英文
- 零样本学习:中文
- 学生负责人
- 技术贡献
-
- 清华大学计算机系知识工程实验室——the Knowledge Engineering Group at Tsinghua
- 清华大学计算机系PACMAN实验室——the Parallel Architecture & Compiler technology of Mobile, Accelerated, and Networked systems Group at Tsinghua
- 清华大学计算机系自然语言处理实验室(BMInf)——the Natural Language Processing Group at Tsinghua
- 智谱AI——an AI startup that aims to teach machines to think like humans
- 计算资源赞助
- 项目总负责
- 参考资料
GLM-130B:开放的中英双语预训练模型
摘要:何为 GLM-130B?
GLM-130B 是一个开源开放的双语(中文和英文)双向稠密模型,拥有 1300 亿个参数,模型架构采用通用语言模型(GLM)。它旨在支持在一台 A100(40G * 8) 或 V100(32G * 8)服务器上对千亿规模的参数进行推理。截至 2022 年 7 月 3 日,GLM-130B 已经对超过 4000 亿个文本标识符(中文和英文各 2000 亿)进行了训练,它有以下独特优势