ChatGLM2-12B 效果怎么样？官方公布

AITIME论道

于 2023-07-27 18:30:48 发布

阅读量524

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247516218&idx=1&sn=d2c19f39f61538fdfb1de7a8eea1a6bf&chksm=e932b29cde453b8aa7e22e3ba0fec487347900bbbf453e81c13326801d95681b2944a9d034b5&scene=126&sessionid=0

版权

ChatGLM2-12B模型在MMLU、C-Eval、GSM8K和BBH数据集上取得良好效果，采用zero-shot和few-shotCoT方法测试。GLM技术团队计划举办「ChatGLM开发者日」，分享大模型研究的最新进展。

摘要由CSDN通过智能技术生成

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

以下内容来源于GLM大模型

ChatGLM2 系列模型发布月余，大家对 ChatGLM2-6B 的效果已经有较多认知。我们现在公布 ChatGLM2-12B 在部分中英文典型数据集上的评测效果，供大家参考。这些数据集包括 MMLU(英文)、C-Eval(中文)、GSM8K(数学) 和 BBH(英文) 等。

ChatGLM2-12B 模型在这些数据集上取得了不错的成绩。我们将继续不断改进和优化模型，以提供更优质的模型效果。

具体信息请参考：https://github.com/THUDM/ChatGLM2-6B

为感谢大家对 GLM 技术团队的关注和支持，我们计划于近期举办「ChatGLM开发者日」，为大家分享大模型研究相关的前沿进展，包括且不限于模型训练、微调、检索、prompt 等，敬请关注。

MMLU

Chat 模型使用 zero-shot CoT (Chain-of-Thought) 的方法测试，Base 模型使用 few-shot answer-only 的方法测试。

C-Eval

Chat 模型使用 zero-shot CoT 的方法测试，Base 模型使用 few-shot answer only 的方法测试。

GSM8K

所有模型均使用 few-shot CoT 的方法测试，CoT prompt 来自 http://arxiv.org/abs/2201.11903

* 我们使用翻译 API 翻译了 GSM8K 中的 500 道题目和 CoT prompt 并进行了人工校对。

BBH

所有模型均使用 few-shot CoT 的方法测试，CoT prompt 来自

https://github.com/suzgunmirac/BIG-Bench-Hard/tree/main/cot-prompts

往期精彩文章推荐

记得关注我们呀！每天都有新知识！

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了1100多位海内外讲者，举办了逾550场活动，超600万人次观看。

我知道你

在看

哦

~

点击 阅读原文 直达ChatGLM2-12B！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。