ChatGLM-6B: 开源双语对话语言模型
项目基础介绍和主要编程语言
ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。该项目主要使用 Python 编程语言开发,结合了深度学习框架 PyTorch 和自然语言处理库 Transformers。
项目核心功能
ChatGLM-6B 的核心功能包括:
- 中英双语对话:模型能够理解和生成中英双语的对话内容,适用于多语言环境下的应用。
- 本地部署:结合模型量化技术,用户可以在消费级显卡上进行本地部署,INT4 量化级别下最低只需 6GB 显存。
- 高效参数微调:支持基于 P-Tuning v2 的高效参数微调方法,INT4 量化级别下最低只需 7GB 显存即可启动微调。
- 学术研究和商业使用:模型权重对学术研究完全开放,在填写问卷进行登记后亦允许免费商业使用。
项目最近更新的功能
最近更新的功能包括:
- CodeGeeX2 发布:基于 ChatGLM2-6B 的代码生成模型,代码能力全面提升,支持更强大的代码生成和更优秀的模型特性。
- ChatGLM2-6B 发布:ChatGLM-6B 的升级版本,引入了更强大的性能、更长的上下文、更高效的推理等新特性。
- WebGLM 发布:支持利用网络信息生成带有准确引用的长回答,是一项被接受于 KDD 2023 的研究工作。
- VisualGLM-6B 发布:一个支持图像理解的多模态对话语言模型,可以通过命令行和网页 Demo 运行。
- 模型版本更新:更新了 v1.1 版本的 checkpoint,训练数据增加英文指令微调数据以平衡中英文数据比例,解决英文回答中夹杂中文词语的现象。