AI之旅
- AI之旅导航:这是一个免费无广告的AI大模型和工具导航网站,提供了大模型整理和排名信息。
评测网站
SuperCLUE
- SuperCLUE是一个中文通用大模型的综合性评测基准,旨在全面评估中文大模型在不同任务上的表现。它由CLUE团队开发,专注于语言理解与生成、知识理解与应用、专业能力、环境适应与安全性等多个维度的评估。SuperCLUE的评测体系包括基础能力、专业能力和中文特性能力三个主要维度,涵盖语义理解、对话、逻辑推理、角色模拟、代码生成与创作等10项基础能力,以及中学、大学及专业考试的50多项专业能力,还有针对中文特点的任务,如成语、诗歌、文学、字形等10项中文特性能力。
Chinese-LLM-Benchmark
- Chinese-LLM-Benchmark 是一个由 Jein Lee 创建和维护的开源项目,旨在评估和优化中文大型语言模型(LLM)。该项目提供了一套全面的基准测试集和工具,用于衡量不同模型在理解、生成及应用中文文本方面的性能。
Awesome Chinese LLM
- Awesome Chinese LLM是一个专注于中文大型语言模型(LLM)的开源资源库,旨在为开发者、研究人员和爱好者提供一个全面、易用的平台,帮助他们更好地理解和利用中文预训练语言模型。
Awesome-LLMs-In-China
- Awesome-LLMs-In-China 是一个专注于收集和整理中国大型语言模型(LLM)的资源库。
OpenCompass
- OpenCompass是上海人工智能实验室开源的大模型评测平台,涵盖学科、语言、知识、理解、推理等五大评测维度。
- github地址
**
WebDev Arena
Chatbot Arena
FlagEval
- FlagEval是一个由北京智源人工智能研究院(BAAI)推出的全面、开放且科学的大模型评测体系及平台。其主要目标是为AI基础模型、预训练算法以及微调/压缩算法等提供科学、公正、开放的评测基准、方法和工具集。