LLM Evaluation
文章平均质量分 65
主要整理了LLM中Evaluation相关文章。专栏中主要是摘要和结论的相关翻译,至于全文的翻译后续会更新,订阅时请注意,如需要可私信催更!!!
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
mHumanEval - A Multilingual Benchmark to Evaluate Large Language Models for Code Generation
大型语言模型 (LLM) 的最新进展显著增强了从自然语言提示生成代码的能力。由 OpenAI 开发的 HumanEval 基准测试仍然是使用最广泛的代码生成基准测试。然而,这个和其他 Code LLM 基准测试面临着严重的限制,特别是在任务多样性、测试覆盖率和语言范围方面。当前的评估主要集中在测试用例有限的英语到 Python 转换任务上,可能会高估模型性能。虽然最近的工作解决了测试覆盖率和编程语言 (PL) 多样性,但从低资源语言提示生成代码在很大程度上仍未得到探索。原创 2024-11-13 09:30:00 · 206 阅读 · 0 评论 -
CODEJUDGE : Evaluating Code Generation with Large Language Models
大型语言模型(LLM)在代码生成方面表现出了良好的性能。然而,如何可靠地评估LLM生成的代码仍然是一个未解决的问题。本文介绍了CODEJUDGE,这是一个代码评估框架,它利用LLM来评估生成代码的语义正确性,而不需要测试用例。我们研究了不同的方法来指导LLM进行“慢思维”,以获得深入可靠的评估。我们在四个代码生成数据集和五种编程语言上用四个LLM作为评估器进行了实验。结果表明,在大多数情况下,CODEJUDGE的表现明显优于现有方法。原创 2024-11-09 10:15:00 · 123 阅读 · 0 评论 -
CAN KNOWLEDGE EDITING REALLY CORRECT HALLUCINATIONS?
大型语言模型(LLM)会出现幻觉,指代生成内容中的非真实信息,尽管它们在任务中具有优越的能力。与此同时,知识编辑已经发展成为一种新的流行范式,可以纠正LLM中编码的错误事实知识,从而避免从头开始重新训练。然而,用于知识编辑的现有评估数据集的一个常见问题是,它们不能确保LLM在编辑之前确实生成了对评估问题的幻觉答案。当LLM在经过不同技术编辑后在这些数据集上进行评估时,很难直接采用性能来评估不同知识编辑方法在纠正幻觉方面的有效性。因此,根本问题仍然没有得到充分验证:知识编辑真的能纠正LLM中的幻觉吗?原创 2024-11-06 11:08:46 · 421 阅读 · 0 评论 -
A User-Centric Benchmark for Evaluating Large Language Models
大型语言模型 (LLM) 是与用户协作完成不同任务的重要工具。评估它们的性能以满足用户在实际场景中的需求非常重要。虽然已经创建了许多基准测试,但它们主要关注特定的预定义模型能力。很少有人介绍真实用户对 LLM 的预期用途。为了解决这一疏忽,我们建议在数据集构建和评估设计中从用户的角度对 LLM 进行基准测试。我们首先从来自 23 个国家/地区的 712 名参与者的用户研究中收集了 1,846 个真实案例和 15 个 LLM。这形成了用户报告场景 (URS) 数据集,其中包含 7 个用户意图的分类。原创 2024-10-29 16:33:13 · 113 阅读 · 0 评论 -
Evaluation of OpenAI o1: Opportunities and Challenges of AGI
这项全面的研究评估了 OpenAI 的 o1-preview 大型语言模型在各种复杂推理任务中的性能,这些任务跨越多个领域,包括计算机科学、数学、自然科学、医学、语言学和社会科学。通过严格的测试,o1-preview 展示了卓越的能力,从编码挑战到科学推理,从语言处理到创造性问题解决,通常都能达到人类水平或卓越的性能。解决复杂的竞争性编程问题的成功率为 83.3%,超过了许多人类专家。生成连贯准确的放射学报告的能力,优于其他评估模型。高中水平数学推理任务准确率 100%,提供详细的分步解答。原创 2024-10-15 09:00:00 · 182 阅读 · 0 评论 -
ChemEval: A Comprehensive Multi-Level Chemical Evalution for Large Language Models
人们对LLM在化学中的作用越来越感兴趣,这导致人们越来越关注针对化学领域量身定制的LLM基准的开发,以评估LLM在不同类型和复杂性的化学任务中的性能。然而,该领域的现有基准未能充分满足化学研究专业人员的具体要求。为此,我们提出了ChemEval,它对LLM在各种化学领域任务中的能力进行了全面评估。具体而言,ChemEval确定了化学中的4个关键渐进水平,评估了42个不同化学任务中LLM的12个维度,这些任务由开源数据和化学专家精心制作的数据提供信息,确保这些任务具有实用价值,能够有效地评估LLM的能力。原创 2024-10-12 09:00:00 · 150 阅读 · 0 评论 -
metabench A Sparse Benchmark to Measure General Ability in Large Language Models
大型语言模型 (LLM) 在一系列任务上的能力各不相同。Open LLM Leaderboard 等举措旨在通过几个大型基准(LLM 可以正确或错误地响应的测试项目集)来量化这些差异。然而,基准分数内部和之间的高度相关性表明 (1) 这些基准衡量存在一小部分共同的潜在能力,并且 (2) 项目利用了冗余信息,因此基准可能会被大大压缩。原创 2024-10-06 12:00:00 · 41 阅读 · 0 评论 -
A COMPREHENSIVE SURVEY ON EVALUATING LARGE LANGUAGE MODEL APPLICATIONS IN THE MEDICAL INDUSTRY
自 2017 年 Transformer 架构问世以来,GPT 和 BERT 等大型语言模型 (LLM) 已经取得了长足的发展,凭借其在语言理解和生成方面的高级能力影响了各个行业。这些模型已显示出改变医疗领域的潜力,凸显了专门的评估框架以确保其有效和合乎道德的部署的必要性。这项全面的调查描述了 LLM 在医疗保健领域的广泛应用和必要评估,强调了实证验证的迫切需求,以充分利用它们在增强医疗保健结果方面的能力。原创 2024-09-08 11:25:58 · 196 阅读 · 0 评论 -
Measuring Social Norms of Large Language Models
我们提出了一个新的挑战,即检验大型语言模型是否理解社会规范。与现有的数据集相比,我们的数据集需要对社会规范有基本的了解才能解决。我们的数据集包含了最大的一组社会规范技能,包括402项技能和12383个问题,涵盖了从意见和论点到文化和法律的广泛社会规范。我们根据K-12课程设计我们的数据集。这使得能够将大型语言模型的社会理解与人类,更具体地说,与小学生进行直接比较。原创 2024-08-29 09:22:08 · 51 阅读 · 0 评论 -
LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models
最近开发的大型语言模型(LLM)已被证明在广泛的语言理解任务中表现出色。但是,他们真的能“推理”自然语言吗?这个问题一直受到广泛的研究关注,许多推理技巧,如常识、数值和定性,都得到了研究。然而,与“逻辑推理”相关的关键技能仍未得到充分探索。现有的研究LLM这种推理能力的工作只集中在命题逻辑和一阶逻辑的几个推理规则(如模式子和模式子)上。针对上述局限性,我们综合评估了LLM在跨越命题逻辑、一阶逻辑和非单调逻辑的25种不同推理模式上的逻辑推理能力。原创 2024-08-26 09:50:48 · 244 阅读 · 0 评论 -
PROMETHEUS 2: An Open Source Language Model Specialized in Evaluating Other Language Models
GPT-4等专有LM通常用于评估各种LM的响应质量。然而,包括透明度、可控性和可负担性在内的担忧强烈推动了专门从事评估的开源LM的发展。另一方面,现有的开放式评估器LMs表现出严重的缺点:1)它们发布的分数与人类分配的分数存在显著差异,2)它们缺乏执行直接评估和成对排名的灵活性,这是两种最常见的评估形式。此外,他们不具备根据自定义评估标准进行评估的能力,而是专注于有用性和无害性等一般属性。原创 2024-08-24 19:29:16 · 104 阅读 · 0 评论 -
Towards Coarse-to-Fine Evaluation of Inference Efficiency for Large Language Models
在现实世界中,大型语言模型(LLM)可以作为帮助用户完成工作的助手,也可以支持高级应用程序的开发。对于LLM的广泛应用,推理效率是一个至关重要的问题,在现有的工作中得到了广泛的研究,并提出了许多优化算法和代码库来提高它。尽管如此,用户仍然发现比较上述所有方法的有效性并理解其潜在机制具有挑战性。在这项工作中,我们对各种代码库的推理性能进行了详细的从粗到细的分析。为了评估整体有效性,我们考察了两个实际应用中的四种使用场景。我们还对Transformer架构中的每个模块进行了深入的理论和实证分析。原创 2024-08-14 10:33:08 · 46 阅读 · 0 评论 -
Evaluating Interventional Reasoning Capabilities of Large Language Models
许多决策任务需要估计干预措施对系统不同部分的因果影响。随着从业者考虑使用大型语言模型(LLM)来自动化决策,研究它们的因果推理能力变得至关重要。最近的一项工作评估了LLM检索常识因果事实的能力,但这些评估并没有充分评估LLM如何推理干预措施。受干预在因果推理中的作用的启发,在本文中,我们进行了实证分析,以评估LLM是否能够准确地更新他们对数据生成过程的知识,以应对干预。我们创建了跨越不同因果图(如混淆、中介)和变量类型的基准,并能够研究基于干预的推理。原创 2024-07-30 10:20:09 · 58 阅读 · 0 评论 -
FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of Large Language Models
大型语言模型(LLM)评估方法和数据集的快速发展带来了一个深刻的挑战:经济高效地整合最先进的评估技术,同时确保可靠性、可重复性和效率。目前,明显缺乏一个统一且适应性强的框架,能够无缝整合各种评估方法。此外,由于潜在的数据污染,评估结果的可靠性往往值得怀疑,在面临与LLM推理相关的巨额成本时,评估效率往往被忽视。为了应对这些挑战,我们引入了FreeEval,这是一个模块化和可扩展的框架,旨在实现对LLM的可靠和高效的自动评估。原创 2024-07-30 09:42:32 · 57 阅读 · 0 评论 -
The RealHumanEval: Evaluating Large Language Models’ Abilities to Support Programmers
对代码的大型语言模型(LLM)的评估主要依赖于静态基准,包括HumanEval,该基准衡量LLM生成通过单元测试的完整代码的能力。随着LLM越来越多地被用作程序员助理,我们研究了在使用LLM编码时,现有基准的收益是否会转化为程序员生产力的提高,包括编码所花费的时间。除了静态基准测试外,我们还研究了偏好指标的效用,这些指标可能被用作衡量LLM有用性的代理,如代码接受率或复制率。为此,我们引入了RealHumanEval,这是一个web界面,用于衡量LLM通过自动完成或聊天支持来帮助程序员的能力。原创 2024-07-26 10:26:34 · 125 阅读 · 0 评论 -
CODEEDITORBENCH: EVALUATING CODE EDITING CAPABILITY OF LARGE LANGUAGE MODELS
代码的大型语言模型(LLM)正在迅速发展,代码编辑成为一项关键能力。我们介绍CodeEditorBench,这是一个评估框架,旨在严格评估LLM在代码编辑任务中的性能,包括调试、翻译、打磨和需求切换。与仅专注于代码生成的现有基准不同,CodeEditorBench强调软件开发的真实场景和实际方面。我们从五个来源策划了各种编码挑战和场景,涵盖了各种编程语言、复杂性级别和编辑任务。原创 2024-07-24 09:21:07 · 166 阅读 · 0 评论 -
Evalverse: Unified and Accessible Library for Large Language Model Evaluation
本文介绍了Evalverse,这是一个新的库,通过将不同的评估工具统一到一个单一的用户友好的框架中,简化了大型语言模型(LLM)的评估。Evalverce使人工智能知识有限的个人能够轻松地请求LLM评估并接收详细的报告,这得益于与Slack等通信平台的集成。因此,Evalverse是对LLM进行全面评估的强大工具,为研究人员和从业者提供了一个集中且易于访问的评估框架。最后,我们还为Evalverce提供了一段演示视频,以两分钟的格式展示了它的功能和实施。原创 2024-07-19 14:47:26 · 64 阅读 · 0 评论 -
Federated Evaluation of Large Language Models on Downstream Tasks with Collective Wisdom
联邦学习(FL)已成为大型语言模型(LLM)协作训练的一种有前景的解决方案。然而,将LLMs整合到FL中带来了新的挑战,特别是在LLMs的评估方面。传统的评估方法依赖于标记的测试集和基于相似性的指标,只覆盖了可接受答案的一个子集,因此无法准确反映LLM在生成任务上的性能。同时,尽管利用先进LLM的自动评估方法具有潜力,但由于需要将数据传输到外部服务器,它们面临着数据泄露的关键风险,并且由于缺乏领域知识,下游任务的性能也不是最优的。原创 2024-07-14 22:28:03 · 165 阅读 · 0 评论 -
A Comprehensive Evaluation on Event Reasoning of Large Language Models
事件推理是许多应用程序的基础能力。它需要事件模式知识来执行全局推理,并需要处理事件间关系和推理范式的多样性。LLM在各种关系和推理范式上完成事件推理的程度仍然未知。为了缓解这种差异,我们全面评估了LLM的事件推理能力。我们引入了一个新的基准EV2来评估EVent推理。EV2由模式和实例两个层次的评估组成,在关系和推理范式方面是全面的。我们在EV2上进行了广泛的实验。我们发现LLMs具有完成事件推理的能力,但他们的表现远不能令人满意。我们还注意到LLMs中事件推理能力的不平衡。原创 2024-07-12 15:32:54 · 188 阅读 · 0 评论 -
LangBiTe: A Platform for Testing Bias in Large Language Models
将大型语言模型(LLM)集成到各种软件应用程序中,引发了人们对其潜在偏见的担忧。通常,这些模型是在论坛、网站、社交媒体和其他互联网来源的大量数据上训练的,这些数据可能会在模型中灌输有害和歧视性的行为。为了解决这个问题,我们提出了LangBiTe,这是一个系统评估LLM中是否存在偏见的测试平台。LangBiTe使开发团队能够定制他们的测试场景,并根据一组用户定义的道德要求自动生成和执行测试用例。每个测试都由一个输入LLM的提示和一个相应的测试预言器组成,该预言器仔细检查LLM的响应以识别偏差。原创 2024-07-11 17:01:11 · 52 阅读 · 0 评论 -
FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models
在新兴的大型语言模型(LLMs)领域,基础知识的评估仍然是一个关键的挑战,特别是对于适合中国语言和文化的模型。本文介绍了FoundaBench,这是一个旨在严格评估中文LLM基础知识能力的开创性基准。FoundaBench包含3354道常识和K12教育科目的多项选择题,经过精心策划,反映了日常和学术知识的广度和深度。我们使用FoundaBench对12种最先进的LLM进行了广泛的评估,采用传统的评估方法和我们的CircularEval协议来减轻模型响应中的潜在偏差。原创 2024-07-11 16:30:31 · 45 阅读 · 0 评论 -
Evaluating the Elementary Multilingual Capabilities of Large Language Models with MULTIQ
大型语言模型(LLM)需要为每个人服务,包括全球大多数非英语使用者。然而,今天的大多数LLM,尤其是开放式LLM,通常只用于英语(例如Llama2、Mistral)或少数高资源语言(例如Mixtral、Qwen)。最近的研究表明,尽管LLM的预期用途有限,但人们还是用许多不同的语言提示LLM。因此,在本文中,我们研究了最先进的多语言能力打开超出预期用途的LLM。为此,我们引入了MULTIQ,这是一个新的银标准基准,用于基本的开放式问题回答,在137种语言的类型多样的集合中有27.4k道测试题。原创 2024-07-04 09:35:42 · 103 阅读 · 0 评论 -
S-Eval: Automatic and Adaptive Test Generation for Benchmarking Safety Evaluation of Large Language
大型语言模型(LLM)因其革命性的功能而备受关注。然而,人们也越来越担心其安全影响,因为LLM产生的输出可能包含各种有害内容,因此在模型部署之前迫切需要对LLM进行全面的安全评估。现有的安全评估基准仍然存在以下局限性:1)缺乏统一的风险分类法,难以系统地对不同类型的风险进行分类、评估和认识;2)薄弱的风险限制了有效反映LLM安全性的能力;3)测试提示生成、选择和输出风险评估缺乏自动化。为了应对这些关键挑战,我们提出了S-Eval,这是一种新的全面、多维和开放式LLM安全评估基准。原创 2024-06-28 10:09:59 · 199 阅读 · 0 评论 -
MANGO: A Benchmark for Evaluating Mapping and Navigation Abilities of Large Language Models
诸如ChatGPT和GPT-4之类的大型语言模型最近在各种自然语言处理任务上取得了惊人的性能。在本文中,我们提出了MANGO,这是一个评估它们执行基于文本的映射和导航能力的基准。我们的基准测试包括53个取自一套文本游戏的迷宫:每个迷宫都有一个漫游,可以访问每个位置,但不覆盖所有可能的路径。任务是回答问题:对于每个迷宫,一个大型语言模型阅读漫游,并回答数百个地图和导航问题,如“你应该如何从房子的西面去阁楼?”和“如果我们从地窖向北和向东去,我们在哪里?原创 2024-06-27 10:28:28 · 115 阅读 · 0 评论 -
LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code
应用于代码相关应用程序的大型语言模型(LLM)已成为一个突出的领域,吸引了学术界和工业界的极大兴趣。然而,随着新的和改进的LLM的开发,现有的评估基准(如HumanEval、MBPP)不再足以评估其能力。在这项工作中,我们提出了LiveCodeBench,这是一种对代码LLM的全面且无污染的评估,它从三个竞争平台(即LeetCode、AtCoder和CodeForces)的比赛中收集新问题。值得注意的是,我们的基准测试还关注更广泛的代码相关功能,如自修复、代码执行和测试输出预测,而不仅仅是代码生成。原创 2024-06-24 15:34:06 · 495 阅读 · 0 评论 -
Exploring the Impact of the Output Format on the Evaluation of Large Language Models
编程语言之间的代码翻译是软件工程中一项长期存在的关键任务,有助于传统系统的现代化,确保跨平台兼容性,并提高软件性能。随着大型语言模型(LLM)及其在代码翻译中的应用的最新进展,人们越来越需要对这些模型进行全面评估。在这项研究中,我们在五种语言(包括C、C++、Go、Java和Python)的3820个翻译对上实证分析了11个流行的指令调整LLM的生成输出,参数范围从1B到46.7B。原创 2024-06-21 10:03:09 · 137 阅读 · 0 评论 -
A systematic evaluation of large language models for generating programming code
我们系统地评估了七个大型语言模型在使用各种提示策略、编程语言和任务困难生成编程代码方面的性能。GPT-4大大优于其他大型语言模型,包括Gemini Ultra和Claude 2。GPT-4的编码性能因不同的提示策略而有很大差异。在本研究评估的大多数LeetCode和GeeksforGeeks编码比赛中,采用最佳提示策略的GPT-4优于85%的人类参与者。此外,GPT-4在不同编程语言之间转换代码以及从过去的错误中学习方面表现出强大的能力。GPT-4生成的代码的计算效率与人类程序员的计算效率相当。原创 2024-06-19 10:47:43 · 61 阅读 · 0 评论 -
CheckEval: Robust Evaluation Framework using Large Language Model via Checklist
我们介绍了CheckEval,这是一种使用大型语言模型的新评估框架,解决了当前评估方法中歧义和不一致的挑战。CheckEval通过将评估标准划分为详细的子问题,并为每个问题构建布尔问题清单,简化评估,来解决这些挑战。这种方法不仅使过程更具可解释性,而且通过关注特定的评估维度,显著提高了结果的稳健性和可靠性。通过使用SummEval基准的重点案例研究验证,CheckEval表明与人类判断有很强的相关性。此外,它还展示了一个高度一致的注释者间协议。原创 2024-06-17 10:57:58 · 272 阅读 · 0 评论 -
Dual Instruction Tuning with Large Language Models for Mathematical Reasoning
最近的进展突出了利用思想链(CoT)数据进行数学推理任务的大型语言模型(LLM)的指令调整的成功。尽管LLM经过了微调,但挑战依然存在,例如CoT生成中不正确、缺失和冗余的步骤,导致答案预测不准确。为了缓解这个问题,我们提出了一种双指令调整策略,从正向和反向对数学推理进行精心建模。这包括引入中间推理状态预测任务(正向推理)和指令重构任务(反向推理),以增强LLM对指令的理解和执行。这些任务的训练实例是基于现有的数学指令调整数据集构建的。随后,LLM使用现有的数学指令和新创建的数据进行多任务微调。原创 2024-06-17 09:39:09 · 107 阅读 · 0 评论 -
Pragmatic Competence Evaluation of Large Language Models for Korean
目前对大型语言模型(LLM)的评估主要依赖于通过多项选择题(MCQ)进行测试来关注其嵌入知识的基准,这是一种天生适合自动评估的格式。我们的研究扩展了这一评估,以探索LLM的语用能力——在复杂的LLM出现之前,特别是在韩语的背景下,这一方面以前没有得到充分的研究。我们采用了两种不同的评估设置:适用于自动评估的传统MCQ格式和由人类专家评估的开放式问题(OEQ),以在没有预定义选项的情况下检查LLM的叙述性反应能力。原创 2024-06-11 10:27:20 · 44 阅读 · 0 评论 -
A Large-scale Holistic Multi-subject Knowledge Evaluation Benchmark for Chinese Large Language Model
中文大型语言模型(LLM)最近在各种NLP基准测试和实际应用中展示了令人印象深刻的功能。然而,全面评估这些LLM的现有基准仍然不足,特别是在衡量LLM所获取的知识方面。目前的数据集收集了不同科目和教育水平的语文考试问题,以解决这一问题。然而,这些基准主要集中在选择题等客观问题上,导致问题类型缺乏多样性。为了解决这个问题,我们在本文中提出了LHMKE,一个大规模、整体和多学科的知识评估基准。LHMKE旨在对中文LLM的知识获取能力进行全面评估。原创 2024-06-05 09:13:37 · 53 阅读 · 0 评论 -
DiaHalu: A Dialogue-level Hallucination Evaluation Benchmark for Large Language Models
由于近年来大型语言模型(LLM)取得了显著的成功,幻觉问题仍然是一个挑战,因此提出了许多检测幻觉的基准。尽管如此,其中一些基准并不是LLM自然生成的,而是有意诱导的。此外,许多人只关注真实性幻觉,而忽视了忠实性幻觉。此外,尽管对话模式在LLM时代得到了更广泛的应用,但目前的基准只集中在句子层面和段落层面的幻觉。在这项研究中,我们提出了DiaHalu,这是我们所知的第一个对话级幻觉评估基准。最初,我们将收集的主题集成到系统提示中,并促进两个ChatGPT3.5之间的对话。原创 2024-06-03 14:03:08 · 83 阅读 · 0 评论 -
A Multi-evidence, Position-aware, and Scalable Benchmark for Evaluating Long-Context LLMs
虽然最近的研究工作集中在开发具有强大长上下文能力的大型语言模型(LLM)上,但由于缺乏长上下文基准,人们对长上下文LLM的性能知之甚少。为了解决这一差距,我们提出了一种用于评估长上下文LLM的多证据、位置感知和可扩展的基准,名为Counting Stars,它通过使用两个任务来评估长上下文LLC:多证据获取和多证据推理。原创 2024-06-02 00:10:52 · 178 阅读 · 0 评论 -
Evaluating Declarative and Procedural Knowledge in Datasets and Large Language Models
陈述性知识和程序性知识是元认知理论中的两个关键部分,这两个部分在LLM的预训练和推理中具有重要意义。然而,主要由于定义、探究和定量评估方面的挑战,缺乏对这两类知识进行全面比较的分析。在本文中,我们从一个新的角度进行了探索,为LLM提供了基础知识并评估了有效分数。通过对广泛使用的数据集和模型进行广泛的实验,我们得出结论:(1)在大多数任务中,声明性知识的收益大于过程性知识。(2) 只有在具有简单逻辑的推理任务中,程序性知识的利润才大于声明性知识。原创 2024-05-29 11:07:14 · 62 阅读 · 0 评论 -
Rapidly Developing High‑quality Instruction Data and Evaluation Benchmark for Large Language Models
为大型语言模型服务的指令数据和评估基准的创建通常需要大量的人工注释。当为日语等非英语语言快速开发此类资源时,这一问题变得尤为突出。而不是遵循直接跨性别的流行做法将现有的英语资源转换为日语(例如,Japanese-Alpaca),我们提出了一种基于GPT-4的高效自学方法。我们首先将少量英语说明翻译成日语,并对其进行后期编辑,以获得母语水平的质量。GPT‑4然后利用它们作为演示,自动生成日语指令数据。原创 2024-05-26 12:02:55 · 38 阅读 · 0 评论 -
FineMath: A Fine-Grained Mathematical Evaluation Benchmark for Chinese Large Language Models
为了全面评估大型语言模型(LLM)的数学推理能力,我们需要仔细策划涵盖不同数学概念和不同难度的数学问题的评估数据集。为了实现这一目标,我们在本文中提出了FineMath,这是一个用于评估中文LLM的细粒度数学评估基准数据集。FineMath旨在涵盖小学数学中教授的主要关键数学概念,这些概念又分为17类数学单词问题,从而能够深入分析LLM的数学推理能力。根据解决这些问题所需的推理步骤的数量,手动注释所有17类数学单词问题的难度等级。原创 2024-05-26 12:02:40 · 186 阅读 · 0 评论 -
AC-EVAL: Evaluating Ancient Chinese Language Understanding in Large Language Models
鉴于古代汉语在捕捉丰富历史文化遗产精髓方面的重要性,大型语言模型(LLM)的快速发展需要能够有效评估其对古代语境理解的基准。为了满足这一需求,我们提出了AC-EVAL,这是一个创新的基准,旨在评估LLM在古代汉语背景下的高级知识和推理能力。AC-EVAL分为三个难度级别,反映了语言理解的不同方面:一般历史知识、短文本理解和长文本理解。该基准包括13项任务,涵盖历史事实、地理、社会习俗、艺术、哲学、古典诗歌和散文,提供了一个全面的评估框架。原创 2024-05-24 13:50:23 · 61 阅读 · 0 评论 -
CLongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models
开发具有强大长上下文能力的大型语言模型(LLM)是近年来的研究热点,导致了精通汉语的长上下文LLM的出现。然而,由于缺乏基准,对这些模型的评估仍不完善。为了解决这一差距,我们提出了CLongEval,这是一个评估长上下文LLM的综合中文基准。CLongEval的特点有三个:(1)数据量充足,包括7个不同的任务和7267个例子;(2) 广泛的适用性,适用于上下文窗口大小从1K到100K的模型;(3) 高质量,除了自动构建的标签外,还有2000多个手动注释的问答对。原创 2024-05-24 09:38:54 · 170 阅读 · 0 评论 -
Benchmarking the Text-to-SQL Capability of Large Language Models: A Comprehensive Evaluation
大型语言模型(LLM)已成为推进文本到SQL任务的强大工具,显著优于传统方法。然而,作为一个新兴的研究领域,对于最佳的提示模板和设计框架仍然没有达成共识。此外,现有的基准测试没有充分探讨LLM在文本到SQL过程的各个子任务中的性能,这阻碍了LLM认知能力的评估和基于LLM的解决方案的优化。为了解决上述问题,我们首先构建了一个新的数据集,旨在降低LLM中过拟合的风险。然后,我们制定了五个评估任务,以全面评估在整个文本到SQL过程中各种LLM的不同方法的性能。原创 2024-05-23 09:55:50 · 110 阅读 · 0 评论 -
Rethinking Generative Large Language Model Evaluation for Semantic Comprehension
尽管大型语言模型(LLM)具有复杂的功能,但在有效评估中遇到了一个主要障碍。本文首先回顾了流行的评估方法——多选问题回答(MCQA),它允许直接测量准确性。通过对11个基准的24个模型进行全面评估,我们强调了MCQA的几个潜在缺点,例如,MCQA评估与实际场景中生成开放式响应之间的不一致。作为回应,我们引入了RWQ Elo评级系统,以两人竞争的形式吸引了24名LLM,如GPT-4、GPT-3.5、Google Gemini Pro和LLaMA-1/-2,由GPT-4担任评委。原创 2024-05-23 09:21:19 · 175 阅读 · 0 评论
分享