LLM评估
文章平均质量分 93
时见先生
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
评估LLMs的时序推理能力 —— 事件时间推理(ETRQA)
本文提出事件时序推理(ETR)任务,旨在建模事件与时间、事件之间的关系。针对现有研究缺乏系统分类和复合问题不足的问题,作者建立了统一分类体系并构建ETRQA数据集,包含16万问题覆盖14种复合类型。研究揭示了当前LLM在复杂时间推理上的局限性,为改进模型对复杂物理世界的理解提供了方向。原创 2026-01-06 16:01:36 · 951 阅读 · 0 评论 -
评估LLMs的时序推理能力 — A Comprehensive Evaluation of Temporal Reasoning Abilities in Large Language Models
理解时间的概念是人类认知的基本方面,是真正理解世界复杂性不可或缺的能力。研究动机:之前的工作通常关注时间的特定方面,缺乏全面的时间推理基准。为此,本文提出了一个数据集TIMEBENCH实验结论:① 最先进的大型语言模型与人类之间存在显著的性能差距,凸显时间推理仍有相当长的路要走。② LLMs在不同推理类别间存在能力差异。原创 2026-01-04 13:47:32 · 1323 阅读 · 0 评论
分享