论文翻译:An Evaluation System for Large Language Models based on Open-Ended Questions

An Evaluation System for Large Language Models based on Open-Ended Questions
https://ieeexplore.ieee.org/abstract/document/10605143

一个基于开放式问题的大语言模型评估系统

摘要

我们设计了一个基于开放式问题的大语言模型评估系统。该系统使用开放式问题对大型语言模型(LLMs)进行了多维度评估,并以评估报告的形式呈现评估结果。目前,大语言模型的评估通常存在两个显著的限制(1)评估方法往往是单一的,导致结果可信度较低(2)大多数评估基于封闭式问题数据集,将生成性大型语言模型视为判别性模型,这未能充分反映这些模型的高输出灵活性特点。针对这两个限制,我们提出了一个基于开放式问题的LLMs评估系统。我们在适配的开源数据集上的实验证明了该系统的有效性。系统的代码已在 https://github.com/JerryMazeyu/GreatLibrarian 上发布。

</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值