大模型ChatGLM简介及应用情景

本文介绍了生成模型GLM系列新成员ChatGLM,特别是ChatGLM-6B和130B版本,强调了其在中英双语对话、模型优化、量化部署和特定领域应用的优势。ChatGLM-6B凭借较低的推理成本和部署门槛,适合企业用户在垂直领域使用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本节介绍生成模型GLM系列模型的新成员——中英双语对话模型ChatGLM。

ChatGLM分为6B和130B(默认使用ChatGLM-6B)两种,主要区别在于其模型参数不同。ChatGLM是一个开源的、支持中英双语问答的对话语言模型,并针对中文进行了优化。该模型基于GLM(General Language Model)架构,如图16-3所示。

 

图16-3  ChatGLM架构

结合模型量化技术,使用ChatGLM-6B用户可以在消费级的显卡上进行本地部署(INT4量化级别下最低只需6GB显存)。表16-2展示了ChatGLM的硬件资源消耗。

接下来将以ChatGLM-6B为基础进行讲解,在讲解过程中,如果没有特意注明,默认使用ChatGLM-6B。更大的模型GLM-130B在使用上与ChatGLM-6B类似,只是在参数量、训练层数以及落地的训练任务方面有所区别,有条件的读者可以自行尝试。

16.2.1  ChatGLM简介及应用前景

ChatGLM基于GLM架构,针对中文问答和对话进行了优化。经过约1TB[T1] [王2] 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62亿个参数的ChatGLM-6B虽然规模不及千亿模型的ChatGLM-130B,但大大降低了推理成本,提升了效率,并且已经能生成相当符合人类偏好的回答。具体来说,ChatGLM-6B具备以下特点。

  • 充分的中英双语预训练:ChatGLM-6B在1:1比例的中英语料上训练了1T[T3] B[王4] 的Token量,兼具双语能力。
  • 优化的模型架构和大小:吸取 GLM-130B训练经验,修正了二维 RoPE 位置编码实现,使用传统FFN结构。6B(62亿)的参数大小,使得研究者和个人开发者自己微调和部署ChatGLM-6B成为可能。
  • 较低的部署门槛:在FP16半精度下,ChatGLM-6B至少需要13GB的显存进行推理,结合模型量化技术,这一需求可以进一步降低到 10GB(INT8)和 6GB(INT4),使得 ChatGLM-6B 可以部署在消费级显卡上。
  • 更长的序列长度:相比 GLM-10B(序列长度为1024),ChatGLM-6B的序列长度达2048,支持更长的对话和应用。
  • 人类意图对齐训练:使用了监督微调(Supervised Fine-Tuning)、反馈自助(Feedback Bootstrap)、人工强化学习反馈(RLHF)等方式,使模型初具理解人类指令意图的能力。输出格式为Markdown,方便展示。

因此,ChatGLM-6B在一定条件下具备较好的对话与问答能力。

在应用前景上,相对于宣传较多的ChatGPT,其实ChatGLM都适用。表面来看,ChatGPT无所不能,风光无限。但是对于绝大多数企业用户来说,和自身盈利方向有关的垂直领域才是最重要的。

在垂直领域,ChatGLM经过专项训练,可以做得非常好,甚至有网友想出了用收集ChatGPT不熟悉领域的内容,再由ChatGLM加载使用的策略。

比如智能客服,没几个人会在打客服电话的时候咨询相对论,而大型的ChatGPT的博学在单一领域就失去了绝对优势,如果把企业所在行业的问题训练好,那么就会是一个很好的人工智能应用。

比如将ChatGLM在语音方面的应用依托于大模型就很有想象力,有公司已经能很好地进行中外语言的文本转换了,和大模型结合后,很快就能生成专业的外文文档。

比如在人工智能投顾方面造诣颇深,接入大模型后进行私有语料库的训练,可以把自然语言轻松地转换成金融市场的底层数据库所能理解的复杂公式,小学文化水平理解这些复杂的炒股指标不再是梦想。

再比如工业机器人领域,初看起来和ChatGPT、ChatGLM没什么关联,但是机器人的操作本质上是代码驱动的,如果利用人工智能让机器直接理解自然语言,那么中间的调试过程将大大减少,工业机器人的迭代速度很可能呈指数级上升。

本文节选自《从零开始大模型开发与微调:基于PyTorch与ChatGLM》,获出版社和作者授权共享。

ChatGLM是一个预训练的对话模型,它是基于GLM-130B进行微调得到的。GLM-130B是一个大规模预训练语言模型,而ChatGLM则是在GLM-130B的基础上进行了开发和优化。\[1\]ChatGLM具有三大技术:情景学习、思维链和自然指令学习。它的飞跃式提升包括多模态支持、更多输入字符数量、更强的推理能力以及文本创造能力,例如生成诗歌、解释图片含义和进行图表计算等。\[1\]ChatGLM的训练于2022年8月完成,论文可以在https://cdn.openai.com/papers/gpt-4.pdf找到。\[1\]此外,ChatGPT Plus是ChatGPT的升级版,集成了GPT-4的功能,可以在https://chat.openai.com/chat上使用。\[1\] 关于ChatGLM的微调,可以参考相关的教程和实践视频,如ChatGLM-6B微调的官方教程、ChatGLM-6B加载本地知识库精确回答财税问题的演示等。\[2\]微调可以根据具体需求进行,例如使用P-Tuning、LoRA、Full parameter等方法。\[2\]此外,为了解决实时性问题,可以结合duckduckgo_search和gpt等技术进行实时搜索和回答。\[3\]在使用ChatGPT时,需要注意提示词要清晰、聚焦、内容相关,同时可以进行角色扮演和创作等。\[1\] #### 引用[.reference_title] - *1* *3* [【ChatGPT】预训练模型微调及其应用ChatGLM-6B、duckduckgo_search、GPT在科研的应用等)](https://blog.csdn.net/qq_35812205/article/details/129482775)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [从GLM-130B到ChatGLM大模型预训练与微调](https://blog.csdn.net/u012193416/article/details/131034265)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值