
还在GPT-4o进行评测么?快来试试开源评价大模型CompassJudger
在进行主观评测的过程中,通常需要一个 Judge Model 来对待测模型的回复进行评分或比较,从而代替人类来进行这一评价工作,得到待测模型在各类主观题上的得分。过去,这往往是由能力较强的闭源模型如 GPT4 来进行的,GPT4 也因此成为了在 AlignBench,AlpacaEval,ArenaHard 等数据集上的标准评测模型。然而,在科学研究和模型迭代的过程中,往往需要进行大规模的评测,而使用闭源模型的成本非常高昂。

























