- 博客(2)
- 收藏
- 关注
原创 NeedleBench 超长文本评测基准:大语言模型能否在 1000K 长度上检索推理?
随着大语言模型(LLMs)在处理长文本方面的能力日益增强,如何准确评估它们在长文本环境中的检索和推理能力成为了一个重要问题。超长文本对LLMs检索关键信息的能力提出了挑战,此外越长的文本中所含的逻辑关系也越复杂,LLMs能够处理超长文本中涵盖的复杂逻辑关系吗?
2024-07-26 15:53:31 713
原创 一文读懂司南大模型评测体系 OpenCompass
在人工智能领域,大语言模型已经成为了技术创新的重要驱动力。为了更好地评估和提升大模型的性能,上海人工智能实验室研发推出了 OpenCompass 司南大模型开源评测体系。该体系是面向大语言模型、多模态大模型等各类模型的一站式评测平台。
2024-07-26 15:27:08 503
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人