本文是LLM系列文章,针对《TreeEval: Benchmark-Free Evaluation of Large Language Models through Tree Planning》的翻译。
摘要
最近,已经建立了许多新的基准,通过计算整体得分或使用另一个LLM作为评判来评估大型语言模型(LLM)的性能。然而,由于基准的开放访问和不灵活的评估过程,这些方法存在数据泄露的问题。为了解决这个问题,我们引入了TreeEval,这是一种LLM的无基准评估方法,它可以让高性能LLM主持不可复制的评估会话,并从根本上避免数据泄露。此外,该LLM作为审查员,以树规划策略在一个主题下提出一系列问题,考虑当前评估状态来决定下一个问题生成,并确保评估过程的完整性和效率。我们评估了6个不同参数大小的模型,包括7B、13B和33B,最终仅使用约45个问题就获得了AlpacaEval2.0的最高相关系数。我们还进行了更多的分析,以显示TreeEval的稳健性和可靠性。我们的代码可以通过提供的URL访问。