ChatGLM 不同代数之间的模型结构区别

本文分析了ChatGLM2与前作ChatGLM在模型架构上的区别,主要变化包括SelfAttention后的激活函数从GELU改为Swish-1,以及Norm层类型从LayerNorm变为了RMSNorm。
摘要由CSDN通过智能技术生成

         ChatGLM2与ChatGLM3模型架构是完全一致的,ChatGLM与后继者结构不同。可见ChatGLM3相对于ChatGLM2没有模型架构上的改进。

相对于ChatGLM,ChatGLM2模型上的变化:

   1. SelfAttention之后的前馈网络有不同。ChatGLM用GELU(Gaussian Error Linear Unit)做激活;ChatGLM用Swish-1做激活。

2. 采用的Norm层是不知样的 ChatGLM: LayerNorm      ChatGLM2: RMSNorm

上图:

一、ChatGLM 

二、 ChatGLM2

参考:https://zhuanlan.zhihu.com/p/665531989

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
ChatGLMChatGLM2都是基于Hugging Face平台的预训练语言模型ChatGLM是一个基于GPT模型的中文聊天模型,用于生成中文对话回复。而ChatGLM2是ChatGLM的升级版,采用了更大的模型规模(6B参数)并进行了更多的训练,提升了生成回复的效果。你可以在Hugging Face的官方网站上找到ChatGLMChatGLM2的详细信息和安装步骤。如果你想从Hugging Face Hub下载这些模型,你需要确保已经安装了Git LFS,并使用git clone命令将模型克隆到本地。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [LLMs之ChatGLM2:ChatGLM2-6B的简介、安装、使用方法之详细攻略](https://blog.csdn.net/qq_41185868/article/details/131427832)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [ChatGLM2发布!中文榜单开源模型排名第一!8-32k上下文,推理提速42%](https://blog.csdn.net/xixiaoyaoww/article/details/131401420)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值