ChatGLM 不同代数之间的模型结构区别

机器不学习ing

已于 2024-04-18 14:25:10 修改

阅读量394

点赞数 2

文章标签：算法

于 2024-04-18 14:23:40 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45870250/article/details/137919420

版权

本文分析了ChatGLM2与前作ChatGLM在模型架构上的区别，主要变化包括SelfAttention后的激活函数从GELU改为Swish-1，以及Norm层类型从LayerNorm变为了RMSNorm。

摘要由CSDN通过智能技术生成

ChatGLM2与ChatGLM3模型架构是完全一致的，ChatGLM与后继者结构不同。可见ChatGLM3相对于ChatGLM2没有模型架构上的改进。

相对于ChatGLM，ChatGLM2模型上的变化：

1. SelfAttention之后的前馈网络有不同。ChatGLM用GELU（Gaussian Error Linear Unit）做激活；ChatGLM用Swish-1做激活。

2. 采用的Norm层是不知样的 ChatGLM: LayerNorm ChatGLM2: RMSNorm

上图：

一、ChatGLM

二、 ChatGLM2

参考：https://zhuanlan.zhihu.com/p/665531989

机器不学习ing

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
ChatGLM 不同代数之间的模型结构区别

1. SelfAttention之后的前馈网络有不同。ChatGLM用GELU（Gaussian Error Linear Unit）做激活；ChatGLM用Swish-1做激活。ChatGLM2与ChatGLM3模型架构是完全一致的，ChatGLM与后继者结构不同。可见ChatGLM3相对于ChatGLM2没有模型架构上的改进。2. 采用的Norm层是不知样的 ChatGLM: LayerNorm ChatGLM2: RMSNorm。
复制链接

扫一扫

机器不学习ing CSDN认证博客专家 CSDN认证企业博客

码龄5年

13: 原创

133万+: 周排名

8万+: 总排名

7460: 访问

: 等级

226: 积分

34: 粉丝

39: 获赞

5: 评论

56: 收藏

私信

关注

热门文章

最新评论

llama-factory 代码阅读
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619143167。
Llama Factory 笔记
机器不学习ing: 还有一个需要注意的点，自己的数据集需要放到 data目录下，并且在 dataidentity.json 里面进行注册，（文中忘记写了）这个可以看 b 站有人讲这件事
ChatGLM 不同代数之间的模型结构区别
CSDN-Ada助手: 恭喜用户发布了第12篇博客！标题“ChatGLM 不同代数之间的模型结构区别”听起来很有深度和挑战性。希望您能继续保持创作热情，分享更多有价值的内容给读者。或许下一步可以深入探讨不同代数之间的模型应用案例，让读者更直观地了解其在实际场景中的应用。期待您的下一篇文章！
ｄｏｃｋｅｒ
CSDN-Ada助手: "恭喜你写了第8篇博客！看到你一直坚持创作，真的很佩服。希望你能继续保持这样的热情和努力，不断提升自己的写作水平。下一步，可以考虑深入探讨docker的应用场景和技术细节，这样能够为读者提供更多有价值的内容。加油！"

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。