大模型排名、开源社区

  1. 目录

    一、大模型排名

    1、 Chatbot Arena | OpenLM.ai

    2、 OpenCompass司南 - 评测榜单

    3、AGI-Eval   AGI-Eval评测社区

    4、中文通用大模型综合性测评基准(SuperCLUE)

    5、FlagEval(天秤评测)​FlagEval - 首页​

    6、C-Eval​​(学科生成):https://cevalbenchmark.com

    二、AI Agent性能榜单

    1、OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments

    2、GAIA基准测试(通用AI助手能力评测)​​

    三、开源社区

    1、Hugging Face(打不开)

    2、魔搭社区(ModelScope)

    3、Papers With Code


    一、大模型排名

1、 Chatbot Arena | OpenLM.ai

Chatbot Arena(前身为LMSYS):免费AI聊天以比较和测试最佳AI聊天机器人

2、 OpenCompass司南 - 评测榜单


3、AGI-Eval   AGI-Eval评测社区


官网:https://agi-eval.cn
功能:评估大模型认知与问题解决能力,提供透明榜单和开放数据集

  • 4、中文通用大模型综合性测评基准(SuperCLUE)

SuperCLUE

是针对中文可用的通用大模型的一个测评基准。
它主要要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型哪些相对效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE,是中文语言理解测评基准(CLUE)在通用人工智能时代的进一步发展。
目前包括三大基准:OPEN多轮开放式基准、OPT三大能力客观题基准、琅琊榜匿名对战基准。它按照月度进行更新。

  • 5、FlagEval(天秤评测)​FlagEval - 首页

  • 官网:https://flageval.baai.ac.cn
  • 出处:智源研究院的多模态生成能力评测,细分文生图、文生视频等任务。例如,快手可灵1.5在文生视频任务中表现优异,腾讯Hunyuan Image在文生图任务中领先。
  • 6、C-Eval​​(学科生成):https://cevalbenchmark.com

GAIA由Meta AI、Hugging Face、AutoGPT等团队联合推出,包含466道需多步骤解决的实际问题,覆盖工具调用、编程、网络检索等能力。

  • 三、开源社区

  • 1、Hugging Face(打不开)

定位:全球最大的AI开源社区,覆盖超40万预训练模型(如Llama3Qwen2DeepSeek)和数据集

核心功能:模型托管与推理服务(Inference API);Transformers库快速加载模型;Spaces功能支持应用部署。

适用场景:快速原型开发、多语言模型实验

链接:https://huggingface.co

  • 2、魔搭社区(ModelScope

定位:国内最大的开源社区,由阿里达摩院推出,集成通义千问、ChatGLM等国产模型

核心功能:一站式MaaS服务(模型即服务);创空间(Studio)支持多模型组合应用(如MinerU知识库工具);行业数据集与中文优化模型

适用场景:企业级AI开发、中文场景适配

链接:https://modelscope.cn

  • 3、Papers With Code


官网:https://paperswithcode.com

Browse the State-of-the-Art in Machine Learning | Papers With Code
功能:汇总SOTA模型在特定任务(如目标检测、文本摘要)的性能数据。

### 大型语言模型性能排名概述 大型语言模型(LLM)的性能排名通常由多个因素决定,包括但不限于模型规模、训练数据质量、推理能力以及特定任务上的表现。然而,值得注意的是,许多顶级的语言模型是由商业公司开发并保持专有性质[^2]。这意味着具体的实现细节和技术指标可能不会完全公开。 在2023年的背景下,虽然具体排名可能会因评测标准的不同而有所变化,但以下几个方面可以作为衡量LLM性能的关键维度: 1. **模型规模**:更大的参数量往往意味着更强的表现力,但这并非唯一决定因素。例如,某些较小的模型通过高效的架构设计也能达到接近甚至超越大规模模型的效果[^3]。 2. **多模态支持**:能够处理文本之外其他形式输入(如图像、音频等)的能力成为评价现代LLMs的一个重要标志之一[^4]。 3. **上下文理解与生成质量**:这涉及到模型对于复杂语境的理解程度及其生成内容的相关性和流畅度等方面[^1]。 以下是几个知名且被认为处于领先地位的大规模预训练语言模型实例(截至2023年),它们各自具备独特优势: - GPT系列 (OpenAI): 以其强大的泛化能力和广泛的适用范围著称; - PaLM系列(Google): 展现出了卓越的零样本/少样本学习潜力; - BLOOM(Hugging Face): 提供了一个开源替代方案,在社区中有较高人气; - MOSS(阿里巴巴达摩院): 结合了中文场景下的优化调整,特别适合汉语环境的应用需求; 需要注意的是,尽管上述列举了一些具有代表性的例子,但由于领域发展迅速加之部分信息保密等原因,实际排行榜单会更加动态多样。 ```python # 示例代码展示如何加载HuggingFace Transformers库中的预训练模型 from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("bigscience/bloom") model = AutoModelForCausalLM.from_pretrained("bigscience/bloom") text = "Replace me by any text you'd like." encoded_input = tokenizer(text, return_tensors='pt') output = model(**encoded_input) print(tokenizer.decode(output.logits.argmax(dim=-1).tolist()[0])) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值