大模型评测

AI之旅

  • ‌AI之旅导航‌:这是一个免费无广告的AI大模型和工具导航网站,提供了大模型整理和排名信息‌。

评测网站

SuperCLUE

  • SuperCLUE是一个中文通用大模型的综合性评测基准,旨在全面评估中文大模型在不同任务上的表现。它由CLUE团队开发,专注于语言理解与生成、知识理解与应用、专业能力、环境适应与安全性等多个维度的评估。SuperCLUE的评测体系包括基础能力、专业能力和中文特性能力三个主要维度,涵盖语义理解、对话、逻辑推理、角色模拟、代码生成与创作等10项基础能力,以及中学、大学及专业考试的50多项专业能力,还有针对中文特点的任务,如成语、诗歌、文学、字形等10项中文特性能力。
    在这里插入图片描述

Chinese-LLM-Benchmark

  • Chinese-LLM-Benchmark 是一个由 Jein Lee 创建和维护的开源项目,旨在评估和优化中文大型语言模型(LLM)。该项目提供了一套全面的基准测试集和工具,用于衡量不同模型在理解、生成及应用中文文本方面的性能。

在这里插入图片描述

Awesome Chinese LLM

  • Awesome Chinese LLM是一个专注于中文大型语言模型(LLM)的开源资源库,旨在为开发者、研究人员和爱好者提供一个全面、易用的平台,帮助他们更好地理解和利用中文预训练语言模型。
    在这里插入图片描述

Awesome-LLMs-In-China

OpenCompass

  • OpenCompass是上海人工智能实验室开源的大模型评测平台,涵盖学科、语言、知识、理解、推理等五大评测维度。
  • github地址
    。**

WebDev Arena

Chatbot Arena

FlagEval

  • FlagEval是一个由北京智源人工智能研究院(BAAI)推出的全面、开放且科学的大模型评测体系及平台。其主要目标是为AI基础模型、预训练算法以及微调/压缩算法等提供科学、公正、开放的评测基准、方法和工具集。
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值