01 对大型语言模型(LLM)的
主客观评估
在评估大型语言模型时,我们可以进行客观评估和主观评估。
主观评估的方法是用户亲自尝试不同的模型,提出一些问题,然后根据自己的感受来判断哪个模型好,哪个模型不好。这种评价方法简单直接,但是它很难达到客观、可解释和可量化的程度。
如果需要进行更深入的测试,或者在技术选型和产品开发的前提下选择大型语言模型,那么仅依靠主观评估是不够的,我们还需要一些相对客观的方法。例如通过数据集进行自动化测试,从而获得一个可量化的评估结果。这就需要数据集和相应的验证指标来作为客观依据。
02 评估数据集与评估方法
目前已有一些可用于评估大规模预训练模型的数据集,有英文、中文等多种语言语料,尤其是英文数据集,相当丰富。其中很大一部分数据来源于考试题目,例如小学生数学考试题,中学英语测试题,物理常识等。
这些数据集可以用于评估模型在简单常识和基础知识方面的表现。但当我们需要针对某个垂直领域进行深度评估时,这些数据就不够用了。尤其是对于一些较为冷门或需要精深专业知识的领域,公开的数据集往往难以满足需求。
在这种情况下,评估者就需要自己动手创建专业数据集。至于构建方法,最直接的:领域专家可以根据自己的知识和经验,人工创建问题,并自己给出对应答案,然后将这个问题和答案写出来,形成一个问题-答案对(QA pair)。通过创建若干个问题-答案对,就可以得到一份满足特