TreeEval: Benchmark-Free Evaluation of Large Language Models through Tree Planning

828 篇文章 3 订阅

已下架不支持订阅

TreeEval是一种避免数据泄露的无基准评估大型语言模型(LLM)的方法,采用树规划策略,由LLM本身主持评估会话,确保评估的完整性和效率。在不依赖现有基准的情况下,通过45个左右的问题,TreeEval在不同规模的模型中展示了高相关性,并证实其可靠性和稳健性。
摘要由CSDN通过智能技术生成

本文是LLM系列文章,针对《TreeEval: Benchmark-Free Evaluation of Large Language Models through Tree Planning》的翻译。

TreeEval:通过树规划对大型语言模型进行无基准评估

摘要

最近,已经建立了许多新的基准,通过计算整体得分或使用另一个LLM作为评判来评估大型语言模型(LLM)的性能。然而,由于基准的开放访问和不灵活的评估过程,这些方法存在数据泄露的问题。为了解决这个问题,我们引入了TreeEval,这是一种LLM的无基准评估方法,它可以让高性能LLM主持不可复制的评估会话,并从根本上避免数据泄露。此外,该LLM作为审查员,以树规划策略在一个主题下提出一系列问题,考虑当前评估状态来决定下一个问题生成,并确保评估过程的完整性和效率。我们评估了6个不同参数大小的模型,包括7B、13B和33B,最终仅使用约45个问题就获得了AlpacaEval2.0的最高相关系数。我们还进行了更多的分析,以显示TreeEval的稳健性和可靠性。我们的代码可以通过提供的URL访问。

1 引言

2 相关工作

3 方法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值