ChatGLM2-6B 是一个清华开源的、支持中英双语的对话语言模型,基于GLM架构,具有62亿参数。结合模型量化技术,ChatGLM-6B可以本地安装部署运行在消费级的显卡上做模型的推理和训练(全量仅需13GB显存,INT4 量化级别下最低只需 6GB 显存)虽然智商比不过 openAI 的 ChatGPT 模型,但是最近最新发布的ChatGLM2-6B 是个在部署后可以完全本地运行,可以自己随意调参,配合API模式可以实现自行构建知识库。
目录
前言
ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,ChatGLM2-6B 引入了如下新特性:
- 更长的上下文:上下文长度由 ChatGLM-6B 的 2K 扩展到了 32K,并在对话阶段使用 8K 的上下文长度训练,允许更多轮次的对话。多轮对话后出现复读和遗忘的情况明显减少。
-
更节约显存与内存:INT4 量化下,6G 显存支持的对话长度由 1K 提升到了 8K。
-
更高的性能:在官方的模型实现下,推理速度相比初代提升了 42%。
-
回答质量提升:对比题图中的 ChatGLM2-6B 与下图中的 ChatGLM-6B 的回复,ChatGLM2-6B 的回答质量提升非常明显