解读：C-Eval: 构造中文大模型的知识评估基准

向内求解

已于 2025-01-16 21:49:32 修改

阅读量970

点赞数 12

文章标签：人工智能语言模型矩阵概率论

于 2025-01-16 21:43:45 首次发布

本文链接：https://blog.csdn.net/qq_22208399/article/details/145191831

版权

这是一篇转载原作者构建大模型评测集C-Eval的一篇博客，原文是在notion上发布的。博主记录了构建过程中的一系列过程和心得，也给出了非常多有用的资源以及认知。

我们常说：“你无法测量的你就无法改进”。如果你想要玩转大模型，那么“学会”评测大模型一定是不可或缺的。

大模型评测的核心在于评测大模型的“知识”能力以及“推理能力”，那么是什么是大模型的知识能力？

简单来说，就是大模型对世界的通用知识的记忆，目前业界形成的共识是模型的大小和知识密集型任务的效果成正比。通俗来说就是，模型越大，参数越多，所存储的知识就越多，于是你提问之后，能够回答的内容也就越详实（更具体，而不是“高屋建瓴”地回答）。

然后什么又是大模型的“推理能力”？推理能力一般是指在解决困难、复杂问题的时候，大模型的能力。（这里需要澄清一点的是，我们通常说的“思维链”（Chain of Thoughts，又简称为CoT）只是一种可以增强大模型能力的方式，CoT本身并不是指大模型的推理。据说还有一种增强大模型能力的方法是，让大模型在生成的过程中多生成一些" $\cdots$ "，也能够起到增强模型能力的效果）。

那么模型的推理能力跟模型的大小是什么关系？之前观察到的情况是推理能力通常在比较大的模型（如50B（50亿个参数），65B的模型）上才会比较显著，6b，7b模型在这块儿不太行。大家可以通俗的理解成基础知识不牢靠的人，盖得高楼也是摇摇晃晃。所以知识更多的50B模型才有更强的推理能力。但随着OpenAI o1等模型的发布，很多人可以使用小模型基于CoT来训练出推理能力，据说在一些打榜的数学测试集上结果不错，但对于通用世界里面的比较困难的问题，是否也可以能有比较好的推理能力，其实还需要大家进一步去验证。另外在原始的博文中，作者给出一种观点是：CoT只增加推理的效果，不增加知识效果，这显然也符合我们这里给出的观点。

这篇博客中还给出了另外一个非常重要的观点是，目前各类大模型评估的榜单，大家都不要太认真对待。因为为了打榜，这些模型都或多或少做过一些优化：恶心的直接就抄袭作弊，好一点儿的就是把大模型朝着小镇做题家的方向培养；但我们日常生活中需要的大模型可能是一个无微不至的导游。所以大家还是要以自己的应用场景为主来判断这些大模型的落地效果。

榜单最重要的作用其实是用来辅助开发模型，这句话是原始博客中的，大多数的人其实不会去训练大模型，但如果你要自己训练大模型，使用这些榜单，你至少可以在下面的两个场景派上用途：
第一、预训练数据方案的优化：如果不确定哪种数据混合方案更好，可以在C-Eval上比较一下，来确定最优的预训练数据混合方案；
第二、在预训练阶段可以帮助找到一个更好的checkpoint：简而言之就是C-Eval可以作为检验预训练模型的整体模型能力的一个标尺；

如果你看不懂上面我在说什么也没有关系啦，总之就是，开发大模型打榜是别人的目标，和你的日常应用关系不大。大可以平时多关注自己的本职工作，不用担心自己没有用到刚好的模型。

最后作者给出a bunch of high quality resources（我可能是也是titok refugee）。简而言之就是，如果你要想真的好好做大模型，还是需要知道：Garbage in, Garbage out的道理。外面的文章一大票，真的需要挑选高质量的来阅读。

下面是博客作者的原文：

需要重点关注以下机构的论文

- OpenAI - 这个毋庸置疑，所有文章都要全文背诵
- Anthropic - OpenAI 不告诉你的东西，Anthropic 会告诉你
- Google DeepMind - Google 比较冤大头，什么技术都老实告诉你，不像 OpenAI 藏着掖着

如果读者在里经验不足，那么可以先不要看其他的地方的文章。先培养判断力，再去读其他地方的文章，这样才能分清好坏。在学术上，要分清好坏，而不是不加判断一味接受。

另外博客作者还给出了一些关键性的经典的方法，需要大家认真去学习。

在研发的过程中，建议关注以下内容：

- 如何组 pretraining 的数据，比如 DoReMi 这个方法
- 如何增加 pretraining 的稳定性，比如 BLOOM 的方法
- 如何组 instruction tuning 的数据，比如 The Flan Collection
- 如何做 instruction tuning ，比如 Self-instruct
- 如何做 RL，比如 Constitutional AI
- 如何增加 reasoning 的能力，比如我们先前的博客
- 如何增加 coding 能力，比如 StarCoder
- 如何增加工具使用的能力 (C-Eval Hard 需要模型能调用工具做科学计算)，比如 toolformer

想想也是确实如此，我们从大学毕业一路走来，如果放到数据结构和算法上来说，可能递归、动态规划、二分检索之类的经典算法思想才是一直伴随我们的最重要的基础。

欢迎大家点赞、关注，我将持续为大家输出高质量的博客内容。也欢迎大家给我留言，大模型时代属于我们大家。