大模型评测

最新推荐文章于 2025-04-06 10:59:05 发布

WindyChanChan

最新推荐文章于 2025-04-06 10:59:05 发布

阅读量492

点赞数 3

分类专栏：大模型文章标签：人工智能语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013308709/article/details/144804121

版权

大模型专栏收录该内容

6 篇文章

订阅专栏

AI之旅

‌AI之旅导航‌：这是一个免费无广告的AI大模型和工具导航网站，提供了大模型整理和排名信息‌。

评测网站

SuperCLUE

SuperCLUE是一个中文通用大模型的综合性评测基准，旨在全面评估中文大模型在不同任务上的表现。它由CLUE团队开发，专注于语言理解与生成、知识理解与应用、专业能力、环境适应与安全性等多个维度的评估。SuperCLUE的评测体系包括基础能力、专业能力和中文特性能力三个主要维度，涵盖语义理解、对话、逻辑推理、角色模拟、代码生成与创作等10项基础能力，以及中学、大学及专业考试的50多项专业能力，还有针对中文特点的任务，如成语、诗歌、文学、字形等10项中文特性能力。

Chinese-LLM-Benchmark

Chinese-LLM-Benchmark 是一个由 Jein Lee 创建和维护的开源项目，旨在评估和优化中文大型语言模型（LLM）。该项目提供了一套全面的基准测试集和工具，用于衡量不同模型在理解、生成及应用中文文本方面的性能。

在这里插入图片描述

Awesome Chinese LLM

Awesome Chinese LLM是一个专注于中文大型语言模型（LLM）的开源资源库，旨在为开发者、研究人员和爱好者提供一个全面、易用的平台，帮助他们更好地理解和利用中文预训练语言模型。

Awesome-LLMs-In-China

Awesome-LLMs-In-China 是一个专注于收集和整理中国大型语言模型（LLM）的资源库。

OpenCompass

OpenCompass是上海人工智能实验室开源的大模型评测平台,涵盖学科、语言、知识、理解、推理等五大评测维度。
github地址
**

WebDev Arena

WebDev Arena

Chatbot Arena

Chatbot Arena

FlagEval

FlagEval是一个由北京智源人工智能研究院（BAAI）推出的全面、开放且科学的大模型评测体系及平台。其主要目标是为AI基础模型、预训练算法以及微调/压缩算法等提供科学、公正、开放的评测基准、方法和工具集。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。